为 什么 要 写 这 本 书 


如 今 是 一 个 数据 爆炸 的 时 代 ， 个 人 的 图 片 、 视 频 、 文 档 等 数据 很 容易 就 可 达到 数 百 GB 的 规模 ， 而 企业 的 数据 规模 增长 得 更 快 ， 以 互联 网 搜索 引擎 公司 为 例 ， 往 往 需要 存储 爬虫 获取 的 所 有 站 点 的 原始 网 
页 数据 ， 同 时 还 需要 记录 数 以 亿 计 网 民 的 搜索 点 击 行为 及 日 志 等 重要 数据 ， 这 些 数据 的 规模 可 以 达到 PB， 甚 至 是 EB 级 别 。 为 了 解决 这 些 数据 的 存储 和 相关 计算 问题 就 必须 构建 一 个 强大 且 稳 定 的 分 布 式 集群 
系统 来 作为 搜索 引 警 的 基础 架构 支撑 平台 ， 但 是 对 大 多 数 的 互联 网 公司 而 言 ， 研 发 一 个 这 样 的 高 效能 系统 往往 要 支付 高 昂 的 费用 。 然 而 值得 庆幸 的 是 Google 在 2004 年 公布 了 关于 其 基础 架构 的 两 篇 核心 论 
文 GFS (The Google File System) 和 MapReduce (MapReduce: SimplifiedData Processing on Large Clusters) ， 正 是 这 两 篇 论文 商定 了 Hadoop 的 理论 和 实践 基础 ， 而 后 顶级 工程 师 Doug Cutting 
将 Google 的 GFS 分 布 式 文件 系统 和 MapReduce 并 行 计算 模型 实现 上 且 命 名 为 Hadoop， 并 将 Hadoop 开 放 源 代码 贡献 给 开源 世界 。 经 过 多 年 的 发 展 ， 如 今 已 经 形成 了 以 Hadoop 为 核心 的 大 数据 生态 系统 ， 开 
创 了 通用 海量 数据 处 理 基 础 架构 平台 的 先河 。 


Hadoop 是 一 个 非常 优秀 的 分 布 式 计 算 系 统 ， 利 用 通用 的 硬件 就 可 以 构建 一 个 强大 、 稳 定 、 简 单 ， 并 且 高 效 的 分 布 式 集群 计算 系统 ， 完 全 可 以 满足 互联 网 公司 基础 架构 平台 的 需求 ， 付 出 相对 低廉 的 代 
价 就 可 以 轻松 处 理 超大 规模 的 数据 。 如 今 Hadoop 已 经 被 国内 外 各 大 公司 广泛 使 用 ， 在 国内 以 百度 、 腾 讯 、 阿 里 等 为 代表 的 著名 互联 网 公司 也 都 利用 Hadoop 构 建 底层 的 大 数据 基础 架构 平台 ， 而 移动 、 联 
通 、 电 信 等 电信 企业 ， 以 及 电力 、 银 行 等 国内 传统 企业 也 在 大 规模 使 用 Hadoop。 因 此 学 习 并 掌握 Hadoop 技 术 已 经 是 进入 这 些 企业 的 基本 技能 之 一 。 相 应 地 ， 学 习 和 使 用 Hadoop 技 术 的 爱好 者 和 开发 者 也 
越 来 越 多 。 本 书 正 是 在 这 样 的 背景 下 创作 出 来 的 ， 希 望 可 以 帮助 更 多 的 人 学 习 并 掌握 Hadoop 技 术 ， 从 而 推动 Hadoop 技 术 在 中 国 的 推广 ， 进 而 推动 中 国信 息 产 业 的 发 展 。 


Hadoop 如 今 已 经 发 行 了 多 个 版 本 ， 并 且 产 生 了 各 种 以 Hadoop 为 基础 的 应 用 系统 ， 但 是 就 核心 技术 而 言 Hadoop 主 要 有 两 个 重要 版 本 : 第 一 个 就 是 以 MapReduce 模 型 为 核心 技术 的 版 本 ， 目 前 开源 稳 
定 版 本 为 Hadoop-1.X (包括 Hadoop-0.20.X，Hadoop-0.21.X，Hadoop-0.22.X 等 ) ; 第 二 个 就 是 以 YARN 计 算 框架 为 核心 技术 的 新 版 本 ， 目 前 最 新 版 本 为 Hadoop-2.X (包括 Hadoop-0.23.X 等 ) 。 目 前 
以 MapReduce 模 型 为 核心 技术 的 Hadoop 版 本 已 经 在 工业 界 的 商业 系统 运行 多 年 ， 不 论 是 在 稳定 性 还 是 高 效 性 方面 都 已 经 得 到 了 认可 ， 而 YARN 计 算 框架 虽然 有 更 好 的 计算 模式 ， 但 是 在 稳定 性 方面 还 没有 
真正 被 大 规模 的 商业 系统 所 证 实 ， 更 多 的 是 作为 实验 系统 或 者 新 特性 被 调研 使 用 。 因 此 将 本 书 以 MapReduce 模 型 为 核心 技术 的 版 本 Hadoop-1.X 作 为 研究 和 讲解 对 象 ， 分 为 三 大 部 分 由 浅 入 深 进行 讲解 ， 包 
括 基础 篇 、 高 级 篇 和 实战 篇 。 为 了 使 读者 更 好 地 理解 并 掌握 Hadoop 核 心 技 术 ， 本 书 对 核心 实现 机 制 都 结合 了 源 代码 进行 深入 分 析 ， 并 在 实战 篇 中 结合 实际 应 用 讲解 了 如 何 使 用 Hadoop。 


读者 对 象 


(1) Hadoop 技 术 学 习 者 和 爱好 者 


Hadoop 作 为 一 个 分 布 式 计 算 框架 已 经 成 为 了 互联 网 公司 基础 架构 系统 的 标 配 ， 也 吸引 了 越 来 越 多 的 开发 者 和 爱好 者 的 关注 。 本 书 在 写作 上 由 纲 及 目 、 由 浅 入 深 ， 一 步 一 步 带领 读者 从 Hadoop 技 术 的 入 
门 开 始 ， 逐 步 到 核心 原理 的 实现 机 制 以 及 Hadoop 的 实战 应 用 ， 因 此 本 书 可 以 帮助 Hadoop 技 术 学 习 者 和 爱好 者 快速 入 门 ， 对 Hadoop 的 学 习 起 到 一 个 比较 全 面 、 深 入 而 又 不 乏 实 战 性 的 导向 作用 。 


(2) Hadoop MapReduce 并 行 应 用 开发 者 


Hadoop 可 以 说 是 一 个 复杂 而 又 简单 的 系统 ， 说 其 复杂 是 因为 Hadoop 同 时 实现 了 分 布 式 文件 系统 和 并 行 计算 框架 ， 在 实现 机 制 上 考虑 了 各 种 容错 情况 ， 因 此 不 可 谓 不 复杂 ; 说 其 简单 是 因为 Hadoop 向 
并 行 应 用 开发 者 提供 了 非常 简单 的 编程 接口 一 Map 和 Reduce 函 数 操作 ， 因 此 ， 应 用 开发 者 只 需要 会 使 用 这 两 个 编程 接口 就 可 以 很 方便 地 编写 处 理 大 规模 数据 的 并 行 应 用 程序 。 但 是 如 果 开 发 者 想 要 编写 
高 质量 的 并 行程 序 ， 而 只 懂得 基本 的 MapReduce 编 程 方法 肯定 是 不 够 的 ， 这 相当 于 知 其 然而 不 知 其 所 以 然 ， 因 此 开发 人 员 还 需要 知 其 所 以 然 一 一 必须 理解 Hadoop 的 核心 实现 机 制 ， 需 要 对 Hadoop 框 架 有 
一 个 全 面 而 又 深入 的 认识 和 理解 ， 只 有 这 样 Hadoop 应 用 开发 者 才能 编写 出 高 效 而 又 简洁 的 MapReduce 应 用 程序 。 


(3) Hadoop 集 群 运 维 人 员 


Hadoop 运 维 工程 师 可 以 说 是 复合 型 人 才 ， 因 为 Hadoop 的 运 维 不 仅 需要 熟悉 Linux 系 统 的 运 维 方法 ， 还 需要 非常 熟悉 Hadoop 的 各 种 管理 命令 ， 不 仅 如 此 ， 还 要 了 解 Hadoop 集 群 搭建 、 权 限 管理 、 作 
业 调 度 管理 与 维护 等 。 本 书 在 Hadoop 命 令 系统 和 集群 搭建 方面 专门 编排 了 章节 进行 讲解 ， 因 此 可 以 作为 Hadoop 运 维 工程 师 的 工具 书 。Hadoop 运 维 工程 师 的 主要 职责 虽然 是 通过 集群 运 维 保证 Hadoop 的 
高 可 靠 性 和 高 可 用 性 ， 但 是 仍然 需要 对 Hadoop 的 核心 实现 机 制 ， 甚 至 是 某 些 实现 细节 进行 深入 理解 ， 只 有 这 样 才 可 以 在 集群 出 现 异常 时 快速 找 出 问题 ， 起 到 锦上添花 的 作用 ， 因 此 本 书 对 Hadoop 运 维 工程 
来 说 也 是 一 本 值得 精读 的 参考 书 。 


(4) 分 布 式 系统 的 相关 研发 人 员 


Hadoop 可 以 说 是 分 布 式 系统 领域 中 的 经 典 之 作 ， 分 布 式 文件 系统 和 分 布 式 计算 系统 中 的 核心 理论 方法 都 在 Hadoop 中 有 很 好 的 实现 。 因 此 ， 通 过 对 Hadoop 的 学 习 不 但 可 以 理解 分 布 式 系统 中 的 理论 方 
法 ， 而 且 还 可 以 深入 理解 这 些 理论 方法 具体 的 实现 机 制 。 


(5) 大 数据 技术 学 习 者 和 大 数据 工程 师 
如 果 从 大 数据 的 角度 来 讲 ，Hadoop 无 疑 是 目前 使 用 最 为 广泛 的 大 数据 平台 。 特 别 是 在 互联 网 领域 ，Hadoop 数 据 平台 作为 底层 基础 架构 系统 支撑 着 大 多 数 的 数据 统计 分 析 应 用 ， 因 此 对 于 大 数据 技术 学 
习 者 和 大 数据 工程 师 而 言 ， 学 习 Hadoop 技 术 是 进入 大 数据 领域 的 一 个 很 好 的 切入 点 。 


如 何 阅读 本 书 


第 一 篇 为 基础 篇 (第 1~6 章 ) ， 从 认识 Hadoop 开 始 ， 讲 解 Hadoop 的 前 世 今生 以 及 使 用 领域 ， 然 后 正式 介绍 Hadoop 的 基本 使 用 ， 帮 助 读 者 了 解 Hadoop 的 背景 知识 和 简单 使 用 方法 ， 接 着 通过 HDFS 
分 布 式 文件 系统 和 MapReduce 并 行 计算 模型 从 理论 和 实现 机 制 的 角度 对 Hadoop 核 心 技术 进行 讲解 ， 最 后 对 Hadoop 的 命令 系统 进行 了 系统 的 介绍 。 对 于 初级 和 中 级 读者 而 言 ， 第 一 篇 的 内 容 需 要 重点 阅读 
和 学 习 ， 这 篇 是 Hadoop 核 心 技术 的 基础 ， 只 有 基础 知识 扎实 后 才能 更 好 地 掌握 Hadoop 的 高 级 功能 和 精髓 。 


第 二 篇 为 高 级 篇 (第 7~ 9 章 ) ， 从 原理 与 实现 的 角度 对 Hadoop 的 核心 功能 进行 了 深入 的 研究 ， 涵 盖 MapReduce 深 度 分 析 、Hadoop Streaming 和 Pipes 原 理解 析 ， 以 及 Hadoop 作 业 调度 器 系统 的 深 
入 研究 和 讲解 。 本 篇 内 容 适 合 在 阅读 了 基础 篇 的 基础 上 或 者 已 经 对 Hadoop 的 核心 原理 有 了 一 定理 解 的 基础 上 进行 阅读 。 


第 三 篇 为 实战 篇 (第 10~ 12 章 ) ， 从 实战 的 角度 进行 讲解 ， 首 先 讲述 Hadoop 集 群 搭建 技术 ， 然 后 对 Streaming 和 Pipes 编 程 进行 了 实战 级 的 应 用 讲解 ，Streaming 编 程 接口 是 一 个 非常 简单 且 高 效 的 
MapReduce 编 程 方式 ， 由 于 不 限制 编程 语言 ， 因 此 Streaming 的 使 用 比 Java 原 生 接口 应 用 得 还 要 广泛 ， 由 此 可 见 ， 学 习 并 掌握 Streaming 编 程 技术 非常 有 助 于 软件 工程 师 的 Hadoop 应 用 技术 的 提高 。 第 12 
章 讲解 了 Hadoop MapReduce 应 用 开发 实战 ， 从 整体 的 并 行 应 用 开发 角度 进行 讲解 ， 对 实际 开发 过 程 中 的 常用 功能 使 用 和 常见 问题 解决 都 进行 了 介绍 。 这 部 分 内 容 适 合 在 实际 工作 中 使 用 Hadoop 开 发 应 用 
的 工程 师 阅 读 和 学 习 。 
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第 1 章 ”认识 Hadoop 


认识 并 掌握 一 项 技术 往往 需要 采用 先 从 整体 学 习 了 解 再 到 局 部 深入 的 基本 方法 ， 在 学 习 Hadoop 之 前 至 少 需要 从 宏观 上 搞 清 楚 两 个 基本 问题 : 第 一 ，Hadoop 是 什么 ; 第 二 ，Hadoop 可 以 用 来 做 什么 。 
首先 ，Hadoop 是 一 个 分 布 式 基 础 架构 系统 ， 是 Google 的 云 计 算 基础 架构 系统 的 开源 实现 ，Google 底 层 基础 设施 最 核心 的 组 件 包括 Google Filesystem 和 MapReduce 计 算 框架 ， 相 应 的 Hadoop 最 核心 的 
设计 就 是 HDFS 和 MapReduce， 这 个 系统 就 像 一 个 集群 操作 系统 一 样 ， 可 以 使 廉价 的 通用 硬件 形成 资源 池 从 而 组 成 威力 强大 的 分 布 式 集群 系统 ， 用 户 可 以 在 不 了 解 分 布 式 底 层 细 节 的 情况 下 开发 分 布 式 程 
序 。 那 么 Hadoop 可 以 用 来 做 什么 呢 ，Hadoop 既 然 是 Google 基 础 设施 的 开源 实现 ， 自 然 可 以 做 支撑 搜索 引擎 的 基础 架构 ， 由 于 又 是 一 个 通用 的 分 布 式 框架 ， 因 此 可 以 处 理 很 多 和 大 数据 相关 的 分 布 式 应 
用 。 


本 章 将 从 整体 上 介绍 Hadoop， 包 括 Hadoop 的 发 展 渊源 、 基 本 思想 架构 ， 以 及 Hadoop 的 发 展 应 用 现状 ， 从 而 使 读者 对 Hadoop 有 一 个 基本 的 认识 ， 为 进一步 深入 学 习 夯 实 基础 。 


1.1 ” 绿 于 搜索 的 小 象 
追 本 溯源 ，Hadoop 起 源 于 Nutch， 因 此 学 习 Hadoop 就 有 必要 了 解 一 下 这 种 渊源 及 Hadoop 的 发 展 简 史 。 
1.1.1 Hadoop 的 身世 


首先 我 们 介绍 一 下 Nutch 的 发 展 情况 ，Nutch 是 一 个 以 Lucene 为 基础 实现 的 搜索 引 警 系统 ，Lucene 为 Nutch 提 供 了 文本 检索 和 索引 的 API，Nutch 不 仅仅 有 检索 的 功能 ， 还 有 网 页 数据 采集 的 功能 。 
Mike Cafarella 和 Doug Cutting 在 2002 年 开始 研发 Nutch 系 统 ， 然 而 他 们 很 快 发 现 他 们 的 架构 很 难 扩展 到 数 十 亿 级 别 的 网 页 规模 ， 因 为 这 样 规模 的 搜索 引擎 系统 要 涉及 网 页 的 分 布 式 存储 问题 及 分 布 式 建立 
索引 的 问题 。 恰 在 此 时 ，Google 公 布 了 支撑 其 搜索 引 掌 服务 的 文件 系统 架构 设计 一 一 Google's Distributed Filesystem， 这 种 被 称 为 GFS 的 基础 架构 很 快 引起 了 他 们 的 注意 ， 并 被 成 功 引 入 Nutch 系 统 中 ， 
在 Nutch 中 被 命名 为 Nutch 分 布 式 文件 系统 一 一 NDFS， 正 是 NDFS 解 决 了 Nutch 搜 索引 擎 系统 中 网 页 等 海量 数据 的 存储 问题 。2004 年 ，Google 又 公布 了 一 种 并 行 计算 模型 MapReduce 的 设计 论文 ， 紧 接 
着 在 2005 年 Nutch 就 已 经 实现 了 这 种 高 效 的 并 行 计 算 模型 来 解决 数 十 亿 级 别 以 上 网 页 的 分 布 式 采 集 及 索引 构建 。 很 快 他 们 就 发 现 这 种 NDFS 和 MapReduce 模 型 不 仅 可 以 用 来 解决 搜索 引擎 中 的 海量 网 页 问 
题 ， 同 时 还 具有 通用 性 ， 可 以 用 来 构建 一 种 分 布 式 的 集群 系统 ， 然 后 在 2006 年 这 两 个 模块 就 从 Nutch 中 独立 出 来 ， 并 被 命名 为 Hadoop， 因 此 在 Nutch-0.8.0 版 本 之 前 ，Hadoop 其 实 还 属于 Nutch 的 一 部 
分 ,而 从 Nutch-0.8.0 开 始 ， 将 其 实现 的 NDFS 和 MapReduce 剥 离 出 来 成 立 一 个 新 的 开源 项 目 ， 这 就 是 我 们 目前 所 熟知 的 Hadoop 平 台 。 


1.1.2 Hadoop 简 介 


上 一 节 讲 述 了 Hadoop 和 Nutch 的 关系 ， 从 这 种 渊源 上 来 讲 ，Hadoop 本 质 上 起 源 于 Google 的 集群 系统 ，Google 的 数据 中 心 使 用 廉价 的 Linux PC 机 组 成 集群 ， 用 其 运行 各 种 应 用 。 即 使 是 分 布 式 开 发 的 
新 手 也 可 以 迅速 使 用 Google 的 基础 设施 。Google 采 集 系统 的 核心 的 组 件 有 两 个 : 第 一 个 就 是 GFS (Google Filesystem) ， 一 个 分 布 式 文件 系统 ， 隐 藏 下 层 负 载 均衡 ， 见 余 复 制 等 细节 ， 对 上 层 程 序 提供 一 
个 统一 的 文件 系统 API 接 口 ; 第 二 个 是 MapReduce 计 算 模型 ，Google 发 现 大 多 数 分 布 式 运算 可 以 抽象 为 MapReduce 操 作 。Map 是 把 输入 Input 分 解 成 中 间 的 Key/Value 对 ，Reduce 把 Key/Value 合 成 最 终 
输出 Output。 这 两 个 函数 由 程序 员 提 供给 系统 ， 下 层 设 施 把 Map 和 Reduce 操 作 分 布 在 集群 上 运行 ， 并 把 结果 存储 在 GFS 上 。 


而 Hadoop 就 是 Google 集 群 系统 的 一 个 Java 开 源 实现 ， 是 一 个 项 目的 总 称 ， 主 要 是 由 HDFS、MapReduce 组 成 。 其 中 HDFS 是 Google File System (GFS) 的 开源 实现 ; MapReduce 是 Google 
MapReduce 的 开源 实现 。 这 个 分 布 式 框架 很 有 创造 性 ， 而 且 有 极 大 的 扩展 性 ， 使 Google 在 系统 吞吐 量 上 有 很 大 的 竞争 力 。 在 2006 年 时 Hadoop 就 受到 了 Yahoo 的 支持 ， 目 前 Yahoo 内 部 已 经 使 用 Hadoop 
代替 了 原来 的 分 布 式 系统 并 拥有 了 世界 上 最 大 的 Hadoop 集 群 。 


Hadoop 实 现 了 HDFS 文 件 系统 和 MapReduce， 使 Hadoop 成 为 一 个 分 布 式 的 计算 平台 。 用 户 只 要 分 别 实现 Map 和 Reduce， 并 注册 Job 即 可 自动 分 布 式 运行 。 因 此 ，Hadoop 并 不 仅仅 是 一 个 用 于 存储 
的 分 布 式 文 件 系统 ， 而 是 用 于 由 通用 计算 设备 组 成 的 大 型 集群 上 执行 分 布 式 应 用 的 框架 。 一 般 来 讲 ， 狭 义 的 Hadoop 就 是 指 HDFS 和 MapReduce， 是 一 种 典型 的 Master-Sslave 架 构 ， 如 图 1-1 所 示 。 


Naster 


DateNode Tasklracker 、DateNode TaskTracker, DateNode TaskTracker 


图 1-1 Hadoop 基 本 架构 


从 图 1-1 中 可 以 看 到 ， 典 型 的 Hadoop 由 一 个 Master 逻 辑 节 点 和 多 个 Slave 逻 辑 节 点 构成 ，Master 逻 辑 节 点 由 NameNode 和 JobTracker 组 成 ，NameNode 是 HDFS 的 Master， 主 要 负责 Hadoop 分 布 式 


文件 系统 元 数据 的 管理 工作 ; JobTracker 是 MapReduce 的 Master， 其 主要 职责 就 是 启动 、 跟 踪 、 调 度 各 个 TaskTracker 的 任务 执行 ， 每 一 个 Slave 逻 辑 节 点 通常 同时 具有 DataNode 以 及 TaskTracker 的 功 
能 。TaskTracker 根 据 应 用 要 求 来 结合 本 地 数据 执行 Map 任 务 及 Reduce 任 务 。 


oo 


如 今 广 义 的 Hadoop 其 实 已 经 包括 Hadoop 本 身 和 基于 Hadoop 的 开源 项 目 ， 并 上 且 已 经 形成 了 完备 的 Hadoop 生 态 链 系统 ， 如 图 1-2 所 示 。 


在 图 1-2 中 系统 之 间 的 联系 使 用 箭头 来 表示 ， 各 系统 简介 如 下 : 


:HDFS 一 Hadoop 分 布 式 文件 系统 ，GFS 的 Java 开 源 实现 ， 运 行 于 大 型 商用 机 器 集群 ， 可 实现 分 布 式 存储 。 


-MapReduce 一 一 种 并 行 计算 框架 ，Google MapReduce 模 型 的 Java 开 源 实现 ， 基 于 其 写 出 来 的 应 用 程序 能 够 运行 在 由 上 二 个 商用 机 器 组 成 的 大 型 集群 上 ， 并 以 一 种 可 靠 容错 的 方式 并 行 处 理 T 级 别 及 以 上 的 数据 集 。 
“Zookeeper 一 分 布 式 协调 系统 ，Google Chupbby 的 Java 开 源 实现 ， 是 高 可 用 的 和 可 靠 的 分 布 式 协 同 (coordination〉 系 统 ， 提 供 分 布 式 锁 之 类 的 基本 服务 ， 用 于 构建 分 布 式 应 用 。 

“Hbase 一 基于 Hadoop 的 分 布 式 数据 库 ，Google BigTable 的 开源 实现 ， 是 一 个 有 序 、 稀 琉 、 多 维度 的 映射 表 ， 有 良好 的 伸缩 性 和 高 可 用 性 ， 用 来 将 数据 存储 到 各 个 计算 节点 上 。 

"Hive 一 是 为 提供 简单 的 数据 操作 而 设计 的 分 布 式 数据 仓库 ， 它 提供 了 简单 的 类 似 SQL 语 法 的 HiveQL 语 言 进行 数据 查询 。 

-Cloudbase 一 基于 Hadoop 的 数据 仓库 ， 支 持 标 准 的 SQL 语 法 进行 数据 查询 。 


Pig 一 大 数据 流 处 理 系统 ， 建 立 于 Hadoop 之 上 为 并 行 计算 环境 提供 了 一 套数 据 工作 流 语言 和 执行 框架 。 
-Mahout 一 基于 HadoopMapReduce 的 大 规模 数据 挖掘 与 机 器 学 习 算 法 库 。 


.Oozjie 一 MapReduce 工 作 流 管理 系统 。 


`Sqoop 一 数据 转移 系统 ， 是 一 个 用 来 将 Hadoop 和 关系 型 数据 库 中 的 数据 相互 转移 的 工具 ， 可 以 将 一 个 关系 型 数据 库 中 的 数据 导入 Hadoop 的 HDFSH 
FLume 一 一 个 可 用 的 、 可 靠 的 、 分 布 式 的 海量 日 志 采 集 、 聚 合 和 传输 系统 。 


“Scripbe 一 Facebook 开 源 的 日 志 收 集聚 合 框 架 系 统 。 


FP， 也 可 以 将 HDFS 的 数据 导入 关系 型 数据 库 中 。 


图 1-2 中 的 RDBMS 是 传统 的 关系 数据 库 系统 ， 通 过 Sqoop 就 可 以 和 Hadoop 生 态 系统 集成 。 


MapReduce BigTable 


Hadoop 
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MapReduce ee 


图 1-2 Hadoop 生 态 链 系 统 


1.1.3 ”Hadoop 发 展 简 史 


2004 年 Doug Cutting 和 Mike Cafarella 就 实现 了 Hadoop 分 布 式 文件 系统 (HDFS) 和 MapReduce 并 发 布 了 最 初 的 Hadoop 版 本 。 


2005 年 12 月 ，Hadoop 已 经 稳定 运行 在 20 个 节点 的 集群 中 。 


2006 年 1 月 ， 


Doug Cutting 加 入 Yahoo， 同 年 2 月 Apache Hadoop 项 目 开 始 正 式 支 持 HDFS 和 MapReduce 的 独立 研发 ; 3 月 Yahoo 建 立 了 一 个 300 个 节点 的 Hadoop 集 群 ， 并 在 500 个 节点 集群 上 Sort 


benchmark 稳 定 运行 了 42 小 时 。 


2007 年 1 月 ， 


2008 年 4 月 ， 


2009 年 3 月 ， 


2009 年 4 月 ， 


2009 年 5 月 ， 


2009 年 7 月 ， 


2010 年 5 月 ， 
基础 版 和 企业 版 。 


2010 年 9 月 ， 


2011 年 1 月 ， 


2011 年 3 月 ， 


2011 年 4 月 ， 


2011 年 5 月 ， 


2011 年 5 月 ， 


Hadoop 单 cluster 集 群 已 达 900 个 节点 。 

实现 了 在 900 个 节点 的 集群 上 运行 1terabyte sort benchmark 仅 用 209 秒 。 

Cloudera 推 出 CDH (Cloudera's Distribution including Apache Hadoop) 平台 ， 并 开放 源 代码 ， 成 为 Hadoop 最 主要 的 商业 发 行 版 。 

取得 了 在 1400 节 点 的 集群 上 对 500GB 数 据 排 序 仅 用 了 59 秒 的 成 绩 。 

Yahoo 的 团队 使 用 Hadoop 对 1TB 的 数据 进行 排序 只 花 了 62 秒 。 

Hadoop Core 项 目 更 名 为 Hadoop Common; MapReduce 和 Hadoop Distributed File System (HDFS) 成 为 Hadoop 项 目的 独立 子 项 目 ; Avro 和 Chukwa 成 为 Hadoop 新 的 子 项 目 。 


Avro 脱 离 Hadoop 项 目 ， 成 为 Apache 的 顶级 项 目 ; HBase 脱 离 Hadoop 项 目 ， 成 为 Apache 的 顶级 项 目 ;IBM 提供 了 基于 Hadoop 的 大 数据 分 析 软 件 一 一 lInfoSphere Biglnsights， 其 包括 


Hive (Facebook) 脱离 Hadoop， 成 为 Apache 的 顶级 项 目 ; Pig 脱 离 Hadoop 项 目 ， 成 为 Apache 的 顶级 项 目 。 

ZooKeeper 脱 离 Hadoop 项 目 ， 成 为 Apache 的 顶级 项 目 。 

Apache Hadoop 获 得 Media Guardian Innovation Awards; Platform Computing 宣 布 在 它 的 Symphony 软件 中 支持 Hadoop MapReduce APl。 
SGI (Silicon Graphics International) 基于 SG|I Rackable 和 CloudRack 服 务 器 产品 线 提 供 Hadoop 优 化 的 解决 方案 。 


MapR Technologies 公 司 推出 分 布 式 文 件 系统 和 MapReduce 引 擎 


MapR Distribution for Apache Hadoop。 


HCatalog 1.0 发 布 。 该 项 目 由 Hortonworks 在 2010 年 3 月 提出 ，HCatalog 主 要 用 于 解决 数据 人 存储、 元 数据 的 问题 ， 以 及 解决 HDFs 的 瓶颈 ， 它 提供 了 一 个 地 方 来 存储 数据 的 状态 信息 ， 这 


使 得 数据 清理 和 归档 工具 可 以 很 容易 地 进行 处 理 。 


2011 年 5 月 ， 


EMC 为 客户 推出 一 种 新 的 基于 开源 Hadoop 和 解决 方案 的 数据 中 心 设 备 一 一 Greenplum HD， 以 助 其 满足 客户 日 益 增长 的 数据 分 析 需 求 并 加 快 利用 开源 数据 分 析 软 件 。Greenplum 是 EMC 


在 2010 年 7 月 收购 的 一 家 开源 数据 仓库 公司 。 


2011 年 5 月， 在 收购 了 Engenio 之 后 ，NetApp 推 出 与 Hadoop 应 用 相 结 合 的 产品 E5400 人 存储 系统 。 


2011 年 6 月 ，Calxeda 公 司 (之 前 公司 的 名 字 是 Smooth-Stone) 发 起 了 “开拓 者 行动 ”， 一 个 由 10 家 软件 公司 组 成 的 团队 为 基于 Calxeda 即 将 推出 的 ARM 系 统 芯片 设计 的 服务 器 提供 支持 ， 并 为 
Hadoop 提 供 低 功 耗 服务 器 技术 。 


2011 年 6 月 ， 数 据 集成 供应 商 Informatica 发 布 了 其 旗舰 产品 ， 该 产品 设计 的 初 囊 是 处 理 当 今 事务 和 社会 媒体 所 产生 的 海量 数据 ， 同 时 支持 Hadoop。 
2011 年 7 月 ，Yahoo 和 硅谷 风险 投资 公司 Benchmark Capital 创 建 了 Hortonworks 公 司 ， 旨 在 让 Hadoop 更 加 可 靠 ， 并 让 企业 用 户 更 容易 安装 、 管 理 和 使 用 Hadoop。 
2011 年 8 月 ，Cloudera 公 布 了 一 项 有 益 于 合作 伙伴 生态 系统 的 计划 一 一 创建 一 个 生态 系统 ， 以 便于 硬件 供应 商 、 软 件 供应 商 及 系统 集成 商 可 以 一 起 探索 如 何 使 用 Hadoop 更 好 地 洞察 数据 。 


2011 年 8 月 ，Dell 与 Cloudera 联 合 推 出 Hadoop 解 决 方案 一 一 Cloudera Enterprise。Cloudera Enterprise 充 分 利用 了 Dell 的 硬件 优势 来 构建 Hadoop 系 统 ， 提 供 大 数据 的 解决 方案 。 


1.2 ”大 数据 、Hadoop 和 云 计算 


通过 对 上 一 节 内 容 的 介绍 我 们 知道 ，Hadoop 最 擅长 的 事情 就 是 可 以 高 效 地 处 理 海量 规模 的 数据 ， 这 样 Hadoop 就 和 大 数据 及 云 计 算 结 下 了 不 解 之 缘 。 本 节 将 先 介绍 与 大 数据 相关 的 内 容 ， 然 后 讲解 
Hadoop、 大 数据 以 及 云 计 算 之 间 的 关系 ， 使 读者 从 大 数据 和 云 计 算 的 角度 来 认识 Hadoop。 


1.2.1 大 数据 


大 数据 一 般 是 指 这 样 的 数据 : 数据 量 巨大 ， 需 要 运用 新 处 理 模 式 才 能 具有 更 强 的 决策 力 、 洞 察 力 和 流程 优化 能 力 的 海量 、 高 增长 率 和 多 样 化 的 信息 资产 。 大 数据 可 分 成 大 数据 技术 、 大 数据 工程 、 大 数 
据 科 学 和 大 数据 应 用 等 领域 。 目 前 人 们 谈论 最 多 的 是 大 数据 技术 和 大 数据 应 用 ， 大 数据 工程 和 大 数据 科学 尚未 被 重视 。 大 数据 工程 指 大 数据 的 规划 建设 及 其 运营 管理 的 系统 工程 ; 大 数据 科学 关注 的 是 大 数 
据 网 络 发 展 和 运营 过 程 中 发 现 和 验证 大 数据 的 规律 及 其 与 自然 和 社会 活动 之 间 的 关系 。 


大 数据 的 特征 有 四 个 层面 : 第 一 ， 数 据 量 巨大 ， 从 TB 级 别 ， 跃 升 到 PB 级 别 ;第 二 ， 数 据 类 型 繁多 ， 包 括 网 络 日 志 、 视 频 、 图 片 、 地 理 位 置信 息 等 ; 第 三 ,价值 密 度 低 ， 商 业 价 值 高 ， 以 视频 为 例 ， 在 连 
续 不 间断 的 监控 过 程 中 ， 可 能 有 用 的 数据 仅仅 只 有 一 两 秒 ; 第 四 ， 处 理 速度 快 。 最 后 这 一 点 也 和 传统 的 数据 挖掘 技术 有 着 本 质 的 不 同 。 业 界 将 其 归纳 为 4V 一 一 Volume、Variety、Value 和 Velocity。 


上 面 我 们 介绍 了 大 数据 的 基本 概念 以 及 其 显著 的 特征 ， 下 面 将 从 不 同 的 维度 来 阐述 大 数据 的 核心 问题 。 
1 数据 态 的 多 样 性 问题 


大 数据 具有 多 态 性 ， 主 要 体现 在 数据 源 、 结 构 及 相关 度 上 ， 在 数据 来 源 上 包括 图 像 、 视 频 、 音 频 、 文 本 、 网 页 、 数 据 流 等 ; 在 结构 上 不 仅仅 包括 结构 化 的 数据 ， 还 包括 非 结构 化 的 数据 ; 在 相关 度 上 不 
仅 有 数据 记录 彼此 间 相 关 性 问题 ， 还 有 时 间 序列 数据 的 相关 性 问题 。 


2. 维 度 复杂 性 问题 

首先 ， 大 数据 中 存在 着 多 元 空间 的 维度 问题 ， 例 如 上 典型 的 三 元 空间 中 大 数据 的 产生 、 状 态 感应 以 及 采集 问题 ， 这 个 问题 在 物 联网 中 非常 常见 ; 其次， 就 是 柔性 粒度 数据 的 传输 、 和 移动 、 存 储 及 计算 问 
题 ; 最 后 ， 就 是 数据 空间 范围 和 数据 密度 的 不 均匀 问题 。 
3. 大 数据 存储 问题 

大 数据 最 为 显著 的 特征 就 是 数据 规模 非常 巨大 ， 单 机 系统 肯定 无 法 解决 存储 问题 ， 这 就 需要 分 布 式 存储 系统 作为 大 数据 的 存储 支撑 服务 ， 而 分 布 式 存 储 系统 需要 考虑 的 核心 问题 包括 : 高 可 靠 性 、 扩 展 
性 、 什 缩 性 、 容 灾 及 恢复 等 问题 。 
4. 大 数据 计算 分 析 问 题 


由 大 数据 的 特征 可 知 ， 大 数据 在 数据 规模 上 非常 巨大 ， 要 在 一 定 的 时 间 内 达到 撒 取 、 管 理 、 处 理 并 整理 为 能 够 帮助 企业 做 出 经 营 决 策 更 有 效 的 资讯 ， 传 统 的 顺序 计算 模式 必然 不 能 满足 这 样 的 需求 ， 这 
就 要 求 使 用 集群 计算 系统 来 完成 计算 分 析 任 务 。 基 于 集群 的 计算 模型 目前 主要 包括 : 基于 消息 传递 的 MPI、MapReduce 计 算 模 型 、 流 式 计算 架构 Storm、S4、 高 性 能 集群 计算 HPCC， 以 及 基于 共享 内 存 
RDD 的 Spark 模 型 。 


5. 大 数据 价值 挖掘 问题 


由 于 大 数据 的 价值 密度 低 而 商业 价值 大 ， 这 使 得 大 数据 的 价值 挖掘 显得 格外 重要 ， 而 价值 挖掘 主要 包括 两 个 阶段 : 第 一 个 阶段 就 是 过 滤 清 洗 ， 需 要 在 尽量 不 损失 其 价值 的 条 件 下 减 小 数据 规模 ， 同 时 在 
不 改变 数据 基本 属性 的 情况 下 采取 数据 清洗 、 抽 样 、 去 重 、 了 过滤、 筛选、 压缩、 索引、 提取 元 数据 等 方法 ， 以 直接 将 大 数据 变 小 ; 第 二 个 阶段 就 是 对 商业 价值 的 挖掘 ， 主 要 是 发 挥 大 数据 探索 式 考 察 与 可 视 
化 作用 ， 人 机 的 交互 分 析 可 以 将 人 的 智慧 融入 数据 ， 再 者 是 通过 群体 智慧 、 社 会 计算 、 认 知 计算 对 数据 价值 进行 提炼 ， 从 而 挖掘 出 大 数据 中 隐藏 的 商业 价值 。 


1.2.2 大 数据 、Hadoop 和 云 计算 的 关系 


上 一 小 节 的 内 容 讲述 了 大 数据 的 基本 概念 及 与 大 数据 相关 的 几 个 核心 问题 ， 通 过 这 些 问题 我 们 已 对 大 数据 有 了 一 个 初步 的 了 解 ， 那 么 大 数据 、Hadoop 及 云 计 算 之 间 到 底 是 什么 关系 呢 ? 为 了 从 大 数据 
和 云 计算 的 角度 去 了 解 Hadoop， 下 面 将 阐述 这 三 个 概念 之 间 的 天 系 。 


可 以 这 样 说 ， 正 是 由 于 大 数据 对 系统 提出 了 很 多 极限 的 要 求 ， 不 论 是 存储 、 传 输 还 是 计算 ， 现 有 计算 技术 难以 满足 大 数据 的 需求 ， 因 此 整个 IT 架构 的 革命 性 重 构 势 在 必 行 ， 存 储 能 力 的 增长 远 远 赶 不 上 
数据 的 增长 ， 设 计 最 合理 的 分 层 存储 架构 已 成 为 信息 系统 的 关键 。 分 布 式 存储 架构 不 仅 需 要 scale up 式 的 可 扩展 性 ， 也 需要 scale out 式 的 可 扩展 性 ， 因 此 大 数据 处 理 离 不 开 云 计算 技术 ， 云 计算 可 为 大 数据 
提供 弹性 可 扩展 的 基础 设施 支撑 环境 以 及 数据 服务 的 高 效 模式 ， 大 数据 则 为 云 计 算 提 供 了 新 的 商业 价值 ， 大 数据 技术 与 云 计算 技术 必 将 有 更 完美 的 结合 。 


我 们 知道 云 计算 的 关键 技术 包括 分 布 式 并 行 计 算 、 分 布 式 存 储 以 及 分 布 式 数据 管理 技术 ， 而 Hadoop 就 是 一 个 实现 了 Google 云 计算 系统 的 开源 平台 ， 包 括 并 行 计 算 模型 MapReduce、 分 布 式 文件 系统 
HDFS， 以 及 分 布 式 数据 库 Hbase， 同 时 Hadoop 的 相关 项 目 也 很 丰富 ， 包 括 ZooKeeper、Pig、Chukwa、Hive、Hbase、Mahout 等 ， 这 些 项 目 都 使 得 Hadoop 成 为 一 个 很 大 很 完备 的 生态 链 系 统 。 目 前 使 
用 Hadoop 技 术 实 现 的 云 计算 平台 包括 IBM 的 蓝 云 ， 雅 虎 、 英 特 尔 的 “ 云 计划 ”， 百 度 的 云 计算 基础 架构 ， 阿 里 巴巴 云 计算 平台 ， 以 及 中 国 移动 的 BigCloud 大 云 平台 。 


总 而 言 之 ， 用 一 句 话 概括 就 是 云 计算 因 大 数据 问题 而 生 ， 大 数据 驱动 了 云 计 算 的 发 展 ， 而 Hadoop 在 大 数据 和 云 计 算 之 间 建 起 了 一 座 坚实 可 靠 的 桥梁 。 


大 家 知道 Hadoop 最 初 的 基本 需求 就 是 为 了 处 理 海量 的 数据 ， 这 主要 是 因为 单机 系统 无 法 完成 海量 数据 的 存储 和 计算 ， 因 为 要 设计 一 个 超级 计算 机 是 几乎 不 可 能 的 事情 ， 那 么 应 该 设计 一 个 什么 样 的 系 
统 才 能 满足 需求 呢 ? 正如 荀子 所 言 “ 台 噶 一 路 ， 不 能 十 步 ; 轰 马 十 驾 ， 功 在 不 舍 ”， 从 计算 的 角度 来 理解 古人 的 这 句 话 ， 就 是 再 超级 的 计算 机 也 很 难 一 下 处 理 海量 的 数据 ， 因 此 需要 分 而 为 之 ，Hadoop 就 
能 将 大 数据 分 而 处 理 ， 然 后 进行 归 约 。 在 Hadoop 框 架 中 最 核心 的 设计 就 是 : HDFS 和 MapReduce。HDFS 是 Hadoop 分 布 式 文件 系统 Hadoop Distributed File System 的 缩写 ， 是 GFS 的 一 个 Java 实 现 ， 为 
分 布 式 计算 存储 提供 了 底层 支持 ; MapReduce 的 思想 最 早 由 Google 的 一 篇 论文 提出 ， 简 单 解释 MapReduce 就 是 “任务 的 分 解 与 结果 的 汇总 ”。 本 节 将 从 Hadoop 中 的 数据 存储 、 切 分 ， 以 及 MapReduce 
的 基本 设计 思想 和 架构 来 学 习 Hadoop 的 基本 原理 。 


1.3.1 ”数据 存储 与 切 分 


在 Hadoop 中 数据 的 存储 是 由 HDFS 负 责 的 ，HDFS 是 Hadoop 分 布 式 计算 的 存储 基石 ，Hadoop 的 分 布 式 文件 系统 和 其 他 分 布 式 文件 系统 有 很 多 类 似 的 特质 。 那 么 HDFS 相 比 于 其 他 的 文件 系统 有 什么 特 
征 呢 ?简单 总 结 有 如 下 的 基本 特征 : 

“对 于 整个 集群 有 单一 的 命名 空间 。 

数据 一 致 性 。 适 合 一 次 写 入 多 次 读 取 的 模型 ， 客 户 端 在 文件 没有 被 成 功 创建 之 前 无 法 看 到 文件 存在 。 

:文件 会 被 分 割 成 多 个 文件 块 ， 每 个 文件 块 被 分 配 存储 到 数据 节点 上 ， 而 且 根 据 配置 会 有 复制 文件 块 来 保证 数据 的 安全 性 。 


在 Hadoop 中 数据 存储 涉及 HDFS 的 三 个 重要 角色 ， 分 别 为 : 名 称 节点 (NameNode) 、 数 据 节 点 (DataNode) 、 客 户 端 。 


NameNode 可 以 看 做 是 分 布 式 文件 系统 中 的 管理 者 ， 主 要 负责 管理 文件 系统 的 命名 空间 、 集 群 配置 信息 、 人 存储 块 的 复制 。NameNode 会 存储 文件 系统 的 Metadata 在 内 存 中 ， 这 些 信 息 主 要 包括 文件 信 
息 ， 即 每 一 个 文件 对 应 的 文件 块 的 信息 ， 以 及 每 一 个 文件 块 在 DataNode 的 信息 


DataNode 是 文件 存储 的 基本 单元 。 它 将 Block 存 储 在 本 地 文件 系统 中 ， 保 存 了 Block 的 Metadata， 同 时 周期 性 地 发 送 所 有 存在 的 Block 的 报告 给 NameNode。 Client 就 是 需要 获取 分 布 式 文件 系统 文件 
的 应 用 程序 。 数 据 存储 中 的 读 取 和 写 入 过 程 ， 如 图 1-3 所 示 。 


元 数据 操作 一 一 > 一 一 一 一 块 操作 


数据 节点 | | 数据 节点 据 节 点 (一 一 数据 节点 || 数据 节点 
DataNode DataNode 人 DataNode DataNode 


图 1-3 HDFS 的 读 取 和 写 入 示意 图 


从 图 1-3 中 可 以 看 到 ， 数 据 存储 过 程 中 主要 通过 三 个 操作 来 说 明 NameNode、DataNode、Client 之 间 的 交互 关系 。 根 据 图 1-3 所 示 的 内 容 我 们 简单 分 析 一 下 Hadoop 和 存储 中 数据 写 入 和 读 取 访问 的 基本 


文件 写 入 HDFS 的 基本 流程 如 下 : 

1) Client 向 NameNode 发 起 文件 写 入 的 请 求 。 

2) NameNode 根 据 文件 大 小 和 文件 块 配置 情况 ， 向 Client 返 回 它 所 管理 的 DataNode 的 信息 。 
3) Client 将 文件 划分 为 多 个 Block， 根 据 DataNode 的 地 址 信息 ， 按 顺序 写 入 每 一 个 DataNode 中 。 
文件 读 取 HDFS 的 基本 流程 如 下 : 

1) Client 向 NameNode 发 起 文件 读 取 的 请 求 。 

2) NameNode 返 回 文件 存储 的 DataNode 的 信息 。 

3) Client 读 取 文件 信息 。 


在 HDFS 中 复制 文件 块 的 基本 流程 如 下 : 


1) NameNode 发 现 部 分 文件 的 Block 不 符合 最 小 复制 数 或 部 分 DataNode 失 效 。 
2) 通知 DataNode 相 互 复制 Block。 
3) DataNode 开 始 相互 复制 。 


通过 上 面 三 个 流程 我 们 基本 了 解 了 Hadoop 是 如 何 使 用 HDFS 存 储 数据 的 ， 那 么 在 Hadoop 中 数据 是 如 何 切 分 的 呢 ? 我 们 知道 HDFS 在 具体 存储 文件 数据 时 先 划 分 为 逻辑 Block 块 ， 后 续 的 写 入 、 读 取 、 复 
制 都 是 以 Block 块 为 单元 进行 的 。 那 么 在 Hadoop 中 数据 处 理 时 存储 在 HDFS 上 的 数据 是 如 何 切 分 呢 ? 其 实 从 HDFS 的 文件 写 入 过 程 就 可 以 看 出 ， 在 Client 科 NameNode 交 互 的 同时 是 需要 加 载 客 户 端的 
Hadoop 配 置 文件 的 ， 如 果 用 户 设置 了 块 的 大 小 配置 属性 dfs.block.size， 就 会 按照 用 户 自 定义 的 大 小 进行 逻辑 切 分 ， 如 果 没 有 配置 ， 则 使 用 集群 默认 的 配置 大 小 ， 因 此 在 写 入 数据 时 文件 已 经 在 逻辑 上 切 分 
好 了 ， 在 运行 MapReduce 时 默认 就 会 按照 切 分 好 的 块 大 小 和 数量 来 启动 Map， 也 就 是 默认 Map 的 数量 是 在 数据 写 入 时 就 确定 好 的 ， 当 然 用 户 也 可 以 指定 文件 数据 的 切 分 大 小 ， 可 通过 


mapred.min.split.size 参 数 在 将 作业 提交 客户 端 时 进行 自 定义 设置 。 
1.3.2 MapReduce 模 型 


在 并 行 计算 领 域 最 著名 的 就 是 MPI 模 型 ，MPI 是 一 种 消息 传递 编程 模型 ， 在 大 规模 科学 计算 领域 已 经 成 功 应 用 了 数 年 ， 而 MapReduce 则 是 一 种 近 几 年 出 现 的 相对 较 新 的 并 行 编程 技术 ， 但 是 
MapReduce 计 算 模型 也 是 建立 在 数学 和 计算 机 科学 基础 上 的 ， 实 践 已 经 证 明 这 种 并 行 编程 模型 具有 简单 、 高 效 的 特点 ， 最 为 重要 的 两 个 概念 就 是 Map 和 Reduce， 最 基本 的 处 理 思 想 就 是 “分 而 治之 ， 然 后 
归 约 ”。Hadoop 会 将 一 个 大 任务 分 解 为 可 以 同时 执行 的 多 个 小 任务 ， 从 而 达到 并 行 计 算 的 目的 。 举 个 简单 的 例子 ， 对 于 一 个 大 型 任务 ， 单 机 处 理 需要 1024 分 钟 ， 而 分 解 为 1024 个 子 任务 并 行 执行 就 可 在 1 
分 钟 完成 处 理 。 在 对 处 理 的 数据 集 的 要 求 上 ， 相 比 于 传统 天 系数 据 库 的 结构 化 数据 ，MapReduce 模 型 的 Hadoop 框 架 适 合 半 结 构 化 或 非 结构 化 的 数据 。 


Hadoop 通 过 自动 分 割 将 要 执行 的 问题 (程序 ) 、 拆 解 成 Map (映射 ) 和 Reduce (化 简 ) 的 方式 ， 其 分 解 过 程 的 实质 是 将 问题 分 为 几 个 部 分 ， 划 分 为 可 以 应 用 于 程序 的 数据 ， 再 将 数据 分 解 ， 然 后 对 分 
解 的 数据 进行 并 行 操作 ， 在 自动 分 割 后 通过 M ap 程序 将 数据 映射 成 不 相关 的 区 块 ， 分 配 (调度 ) 给 大 量 的 计算 机 进行 处 理 以 达到 分 散 运算 的 效果 ， 再 通过 Reduce 程 序 将 结果 汇总 整合 ， 输 出 开发 者 需要 的 
结果 。 


Hadoop 向 用 户 提供 了 一 个 规范 化 的 MapReduce 编 程 接口 ， 用 户 只 需要 编写 Map 和 Reduce 函 数 ， 这 两 个 遂 数 都 是 运行 在 键 - 值 对 基础 上 的 ， 数 据 的 切 分 ， 节 点 之 间 的 通信 协调 等 全 部 由 Hadoop 框 架 本 
身 来 负责 。 一 般 一 个 用 户 作业 提交 到 Hadoop 集 群 后 会 根据 输入 数据 的 大 小 并 行 启动 多 个 Map 进 程 及 多 个 Reduce 进 程 (也 可 以 是 0 个 或 者 1 个 ) 来 执行 。MapReduce 也 具有 弹性 适应 性 ， 小 数据 和 大 数据 仪 
仅 通 过 调整 节点 就 可 以 处 理 ， 而 不 需要 用 户 修改 程序 。MapReduce 模 型 处 理 流程 ， 如 图 1-4 所 示 。 
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图 1-4 ”Hadoop 的 MapReduce 模 型 处 理 流程 


图 1-4 就 是 MapReduce 的 数据 处 理 流程 图 ， 在 Map 之 前 会 对 输入 的 数据 有 split 的 过 程 ， 默 认 split 就 是 写 入 数据 时 的 逻辑 块 ， 每 一 个 块 对 应 一 个 split， 一 个 split 就 对 应 一 个 Map 进 程 ， 正 是 split 保 证 了 任 
务 的 并 行 效率 。 在 Map 之 后 还 会 有 shuffle 和 sort 的 过 程 ，shuffle 简 单 描述 就 是 一 个 Map 的 输出 应 该 映射 到 哪个 Reduce 作 为 输入 ，sort 就 是 指 在 Map 运 行 完 输出 后 会 根据 输出 的 键 进行 排序 。 这 两 个 处 理 步 
又 对 于 提高 Reduce 的 效率 及 减 小 数据 传输 的 压力 有 很 大 的 帮助 。 


从 本 质 上 讲 MapReduce 借 鉴 了 遂 数 式 程序 设计 语言 的 设计 思想 ， 其 软件 实现 是 指定 一 个 Map 遂 数 ， 把 键 值 对 (key/value) 映射 成 新 的 键 值 对 (key/value) ， 形 成 一 系列 中 间 结 果 形式 的 键 值 对 
(key/value) ， 然 后 把 它们 传 给 Reduce ( 归 约 ) 函数 ， 把 具有 相同 中 间 形 式 key 的 value 合 并 在 一 起 。Map 和 Reduce 函 数 具 有 一 定 的 关联 性 。 其 算法 描述 为 : 


Map (k,v)-> list(kl,v1) 
Reduce (kl1, list (v1))->1list (v1) 


在 Map 过 程 中 将 数据 并 行 ， 即 把 数据 用 映射 函数 规则 分 开 ， 而 Reduce 则 把 分 开 的 数据 用 归 约 函数 规则 合 在 一 起 ， 即 Map 是 个 分 的 过 程 ，Reduce 则 对 应 着 合 。 后 面 章节 将 会 具体 讲述 这 部 分 的 具体 内 
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1.3.3 MPI 和 MapReduce 


在 当前 最 流行 的 高 性 能 并 行 体系 结构 中 比较 常用 的 并 行 编程 环境 分 为 两 类 : 消息 传递 和 共享 存储 。MPI 是 基于 消息 传递 的 经 典 代表 ， 是 消息 传递 并 行程 序 设 计 的 标准 ， 用 于 构建 高 可 靠 的 、 可 伸缩 的 、 
灵活 的 分 布 式 应 用 程 。 消 息 传递 并 行 处 理 开销 比较 大 ， 适 合 于 大 粒度 的 进程 级 并 行 计 算 ， 相 对 其 他 并 行 编程 环境 ， 它 具有 很 好 的 可 移植 性 ， 几 乎 能 被 所 有 的 并 行 环境 支持 ; 还 具有 很 好 的 可 扩展 性 ， 具 有 完 
备 的 异步 通信 功能 ， 能 按照 用 户 的 要 求 很 好 地 分 解 问题 ， 组 织 不 同 进程 之 间 进 行 数据 交换 ， 适 合 大 规模 可 扩展 性 的 并 行 算法 。 


MPI 模 式 在 学 术 研究 领域 应 用 较 多 ， 而 在 商业 领域 ， 云 计算 系统 大 多 采用 的 是 Google 云 计算 系统 中 的 MapReduce 并 行 编程 模型 。 云 计算 强调 的 就 是 简单 的 编程 模型 ， 而 MapReduce 就 是 一 种 高 效 
的 、 简 单 的 并 行 编程 模式 ， 也 是 一 种 高 效 的 任务 调度 器 。MapReduce 这 种 编程 模型 不 仅 适 用 于 云 计算 ,在 多 核 和 多 处 理 器 、Cell processor 以 及 异 构 机 群 上 同样 有 良好 的 性 能 。 利 用 MapReduce， 程 序 员 
能 够 轻松 地 编写 紧 厢 合 的 程序 ， 在 运行 时 能 高 效 地 调度 和 执行 任务 ， 在 实现 时 ， 在 Map 函 数 中 指定 对 各 分 块 数据 的 处 理 过程 ， 在 Reduce 函 数 中 指定 如 何 对 分 块 数据 处 理 的 中 间 结 果 进 行 归 约 。 用 户 只 需要 
指定 Map 和 Reduce 函 数 来 编写 分 布 式 的 并 行程 序 ， 不 需要 关心 如 何 将 输入 的 数据 分 块 、 分 配 和 调度 ， 同 时 系统 还 将 处 理 集 群 内 节点 失败 及 节点 间 通 信 的 管理 等 。 而 MPI 仪 仅 是 一 个 并 行 计 算 标准 ， 没 有 相应 
的 分 布 式 文件 系统 的 支撑 ， 在 大 数据 场景 下 大 文件 的 存储 及 访问 都 会 成 为 一 个 问题 ， 同 时 用 户 还 需要 考虑 集群 节点 之 间 的 通信 协调 、 容 错 等 问题 ， 这 些 使 得 MPI 的 编程 难度 比较 大 ， 集 群 本 身 的 规模 也 很 难 
做 到 像 MapReduce 那 样 的 超大 规模 。 


1.4 国外 Hadoop 的 应 用 现状 


Hadoop 是 一 个 开源 的 高 效 云 计算 基础 架构 平台 ， 其 不 仅仅 在 云 计算 领域 用 途 广 泛 ， 还 可 以 支撑 搜索 引 警 服务 ， 作 为 搜索 引 警 底层 的 基础 架构 系统 ， 同 时 在 海量 数据 处 理 、 数 据 挖 气 、 机 器 学 习 、 科 学 
计算 等 领域 都 越 来 越 受到 青睐 。 本 节 将 讲述 国外 Hadoop 的 主要 应 用 现状 。 


1.Yahoo 


Yahoo 是 Hadoop 的 最 大 支持 者 ， 截 至 2012 年 ，Yahoo 的 Hadoop 机 器 总 节点 数目 超过 42000 个 ， 有 超过 10 万 的 核心 CPU 在 运行 Hadoop。 最 大 的 一 个 单 Master 节 点 集群 有 4500 个 节点 (每 个 节点 双 路 
4 核心 CPU boxes w，4x1TB 磁 盘 ，16GB RAM) 。 总 的 集群 存储 容量 大 于 350PB， 每 月 提交 的 作业 数目 超过 1000 万 个 ， 在 Pig 中 超过 60% 的 Hadoop 作 业 是 使 用 Pig 编 写 提交 的 。 


Yahoo 的 Hadoop 应 用 主要 包括 以 下 几 个 方面 : 


支持 广告 系统 
.用 户 行为 分 析 
-支持 Web 搜 索 
. 反 垃 圾 邮件 系统 
.会 员 反 滥用 
.内容 敏捷 
个 性 化 推荐 


同时 Pig 研 究 并 测试 支持 超大 规模 节点 集群 的 Hadoop 系 统 。 
2.Facebook 


Facebook 使 用 Hadoop 存 储 内 部 日 志 与 多 维 数据 ， 并 以 此 作为 报告 、 分 析 和 机 器 学 习 的 数据 源 。 目 前 Hadoop 集 群 的 机 器 节点 超过 1400 台 ， 共 计 11200 个 核心 CPU， 超 过 15PB 原 始 存 储 容量 ， 每 个 商 
用 机 器 节点 配置 了 8 核 CPU，12TB 数 据 存 储 ， 主 要 使 用 Streaming API 和 Java API 编 程 接 口 。Facebook 同 时 在 Hadoop 基 础 上 建立 了 一 个 名 为 Hive 的 高 级 数据 仓库 框架 ，Hive 已 经 正式 成 为 基于 Hadoop 的 
Apache 一 级 项 目 。 此 外 ， 还 开 友 了 HDFS 上 的 FUSE 实 现 。 


3.A9.com 


A9.com 为 Amazon 使 用 Hadoop 构 建 了 商品 搜索 索引 ， 主 要 使 用 Streaming API 以 及 C++、Perl 和 Python 工具 ， 同 时 使 用 Java 和 StreamingAPI 分 析 处 理 每 日 数 以 百 万 计 的 会 话 。A9.com 为 Amazon 构 
建 的 索引 服务 运行 在 100 节 点 左右 的 Hadoop 集 群 上 。 


4.Adobe 


Adobe 主 要 使 用 Hadoop 及 HBase， 同 于 支撑 社会 服务 计算 ， 以 及 结构 化 的 数据 存储 和 处 理 。 大 约 有 超过 30 个 节点 的 Hadoop-HBase 生 产 集 群 。Adobe 将 数据 直接 持续 地 存储 在 HBase 中 ， 并 以 HBase 
作为 数据 源 运行 MapReduce 作 业 处 理 ， 然 后 将 其 运行 结果 直接 存 到 HBase 或 外 部 系统 。Adobe 在 2008 年 10 月 就 已 经 将 Hadoop 和 HBase 应 用 于 生产 集群 。 


5.CbIR 


自 2008 年 4 月 以 来 , 日 本 的 CblR (Content-based Information Retrieval) 公司 在 Amazon EC2 上 使 用 Hadoop 来 构建 图 像 处 理 环境 ， 用 于 图 像 产 品 推荐 系统 。 使 用 Hadoop 环 境 生成 源 数据 库 ， 便 于 
Web 应 用 对 其 快速 访问 ， 同 时 使 用 Hadoop 分 析 用 户 行为 的 相似 性 。 


6.Datagraph 


Datagraph 主 要 使 用 Hadoop 批 量 处 理 大 量 的 RDF 数 据 集 ， 尤 其 是 利用 Hadoop 对 RDF 数 据 建立 索引 。Datagraph 也 使 用 Hadoop 为 客户 执行 长 时 间 运 行 的 离线 SPARQL 查 询 。Datagraph 是 使 用 
Amazon S3 和 Cassandra 存 储 RDF 数 据 输入 和 输出 文件 的 ， 并 已 经 开发 了 一 个 基于 MapReduce 处 理 RDF 数 据 的 Ruby 框 架 一 一 RDFgrid。 


Datagraph 主 要 使 用 Ruby、RDF.rb 以 及 自己 开发 的 RDFgrid 框 架 来 处 理 RDF 数 据 ， 主 要 使 用 Hadoop Streaming 接 口 。 
7.EBay 

单 集群 超过 532 节 点 集群 ， 单 节点 8 核心 CPU， 容 量 超过 5.3PB 人 存储 。 大 量 使 用 的 MapReduce 的 Java 接 口 、Pig、Hive 来 处 理 大 规模 的 数据 ， 还 使 用 HBase 进 行 搜索 优化 和 研究 。 
8.IBM 


IBM 蓝 云 也 利用 Hadoop 来 构建 云 基 础 设施 。IBM 蓝 云 使 用 的 技术 包括 : Xen 和 PowerVM 虚 拟 化 的 Linux 操 作 系统 映像 及 Hadoop 并 行 工作 量 调度 ， 并 发 布 了 自己 的 Hadoop 发 行 版 及 大 数据 解决 方案 。 


9.Last.Fm 
Last.Fm 主 要 用 于 图 表 计 算 、 专 利 申报 、 日 志 分 析 、A/B 测 试 、 数 据 集合 并 等 ， 也 使 用 Hadoop 对 超过 百 万 的 曲目 进行 大 规模 的 音频 特征 分 析 。 
节点 超过 100 台 机 器 ， 集 群 节点 配置 双 四 核 Xeon L5520@2.27GHz L5630@2.13GHz，24GB 内 存 ，8TB (4x2TB) 存储 。 

10.Linkedln 


Linkedln 有 多 种 硬件 配置 的 Hadoop 集 群 ， 主 要 集群 配置 如 下 : 


.800 节 点 集群 ， 基 于 Westmere 的 惠普 SL 170X 与 2x4 的 核心 ，24GB 内 存 ，6x2TB SATA。 


:1900 节 点 集群 ， 基 于 Westmere 的 超 微 -H X8DTT， 与 2x6 的 核心 ，24GB 内 存 ，6x2TB SATA。 


1400 节 点 集群 ， 基 于 Sandy Bridge 超 微 与 2x6 的 核心 ，32GB 内 存 ，6x2TB SATA。 
使 用 的 软件 如 下 : 
-操作 系统 使 用 RHEL 6.3。 


“JDK 使 用 SUN JDK 1.6.0 32。 


-Apache 的 Hadoop 0.20.2 的 补丁 和 Apache Hadoop 的 1.0.4 补 丁 。 
:AZkaban 和 Azkaban 用 于 作业 调度 。 


-Hive、Avro、Kafka 等 。 


11.MobileAnalytic.TV 


主要 使 用 Hadoop 应 用 在 并 行 化 算法 领域 ,涉及 的 MapReduce 应 用 算法 如 下 。 


.信息 检索 和 分 析 。 

-机 器 生成 的 内 容 一 文档 、 文 本 、 音 频 、 视 频 。 
-自然 语言 处 理 。 

项 目 组 合 包 括 : 

-移动 社交 网 络 。 

:网 络 息 虫 。 

-文本 到 语音 转化 。 


音频 和 视频 自动 生成 。 


12.Openstat 


主要 利用 Hadoop 定 制 一 个 网 络 日 志 分 析 并 生成 报告 ， 其 生产 环境 下 超过 50 个 节点 集群 ( 双 路 四 核 Xeon 处 理 器 ，16GB 的 RAM ，4~6 硬 盘 驱 动 器 ) ， 还 有 两 个 相对 小 的 集群 用 于 个 性 化 分 析 ， 每 天 处 理 
约 500 万 的 事件 ， 每 月 15 亿 美元 的 交易 数据 ， 集 群 每 天 产生 大 约 25GB 的 报告 。 


使 用 的 技术 主要 包括 : CDH、Cascading、Janino。 
13.Quantcast 
3000 个 CPU 核心 ，3500TB 存 储 ， 每 日 处 理 1PB 以 上 的 数据 ， 使 用 完全 自 定义 的 数据 路 径 和 排序 器 的 Hadoop 调 度 器 ， 对 KFs 文 件 系统 有 突出 贡献 。 
14.Rapleaf 
超过 80 个 节点 的 集群 (每 个 节点 有 2 个 双核 CPU，2TBx 8 存储 ，16GB RAM 内 存 ) ; 主要 使 用 Hadoop、Hive 处 理 Web 上 关联 到 个 人 的 数据 ， 并 引入 Cascading 简 化 数据 流 穿 过 各 种 处 理 阶段 。 


15.WorldLingo 


硬件 上 超过 44 台 服务 器 (每 台 有 2 个 双核 CPU，2TB 存 储 ，8GB 内 存 ) ， 每 台 服 务 器 均 运 行 Xen ， 启 动 一 个 虚拟 机 实例 运行 Hadoop/HBase， 再 启动 一 个 虚拟 机 实例 运行 Web 或 应 用 程序 服务 器 ， 即 有 
88 台 可 用 的 虚拟 机 ; 运行 两 套 独立 的 Hadoop/HBase 机 群 ， 它 们 各 自 拥有 22 个 节点 。Hadoop 主 要 用 于 运行 HBase 和 MapReduce 作 业 ， 扫 描 HBase 的 数据 表 ， 执 行 特定 的 任务 。HBase 作 为 一 种 可 扩展 
的 、 快 速 的 存储 后 端 ， 用 于 保存 数 以 百 万 的 文档 。 目 前 存储 了 1200 万 篇 文档 ， 近 期 的 目标 是 存储 4.5 亿 篇 文档 。 


16. 格 拉 斯 哥 大 学 的 Terrier Team 


超过 30 个 节点 的 实验 集群 (每 节点 配置 Xeon Quad Core 2.4GHz，4GB 内 和 存 ，1TB 人 存储 ) 。 使 用 Hadoop 促 进 信息 检索 研究 和 试验 ， 特 别 是 用 于 TREC， 用 于 Terrier |R 平 台 。Terrier 的 开源 发 行 版 中 包 
含 了 基于 Hadoop Map Reduce 的 大 规模 分 布 式 索引 。 


17. 内 布 拉 斯 加 大 学 的 Holland Computing Center 


运行 一 个 中 等 规模 的 Hadoop 机 群 (共计 1.6PB 存 储 ) 用 于 存储 和 提供 物理 数据 ， 以 支持 紧凑 型 u 子 螺旋 型 磁 谱 仪 (Compact Muon Solenoid，CMS) 实验 的 计算 。 这 需要 一 类 能 够 以 几 Gbps 的 速度 
下 载 数 据 ， 并 以 更 高 的 速度 处 理 数据 的 文件 系统 的 支持 。 


18.Visible Measures 


将 Hadoop 作 为 可 扩展 数据 流水 线 的 一 个 组 件 ， 最 终 用 于 VisibleSuite 等 产品 。 使 用 Hadoop 汇 总 、 存 储 和 分 析 与 网 络 视频 观众 收看 行为 相关 的 数据 流 。 目 前 的 网 格 包括 超过 128 个 CPU 核 心 ， 超 过 
100TB 的 存储 ， 并 计划 大 幅 扩 容 。 


1.5 ”国内 Hadoop 的 应 用 现状 


Hadoop 在 国内 的 应 用 主要 以 互联 网 公司 为 主 ， 下 面 主要 介绍 大 规模 使 用 Hadoop 或 研究 Hadoop 的 公司 。 


1. 百 度 


百度 在 2006 年 就 开始 关注 Hadoop 并 开始 调研 和 使 用 ， 在 2012 年 其 总 的 集群 规模 达到 近 十 个 ， 单 集群 超过 2800 台 机 器 节点 ，Hadoop 机 器 总 数 有 上 万 台 机 器 ， 总 的 存储 容量 超过 100PB， 已 经 使 用 的 超 
过 74PB， 每 天 提交 的 作业 数目 有 数 和 干 个 之 多 ， 每 天 的 输入 数据 量 已 经 超过 7500TB， 输 出 超过 1700TB。 


百度 的 Hadoop 集 群 为 整个 公司 的 数据 团队 、 大 搜索 团队 、 社 区 产品 团队 、 广 告 团队 ， 以 及 LBs 团 体 提供 统一 的 计算 和 存储 服务 ， 主 要 应 用 包括 : 
-数据 挖掘 与 分 析 。 

-日 志 分 析 平 台 。 
.数据 仓库 系统 。 
-推荐 引擎 系统 。 
-用 户 行为 分 析 系 统 。 


同时 百度 在 Hadoop 的 基础 上 还 开发 了 自己 的 日 志 分 析 平 台 、 数 据 仓库 系统 ， 以 及 统一 的 C++ 编 程 接口 ， 并 对 Hadoop 进 行 深度 改造 ， 开 发 了 Hadoop C++ 扩展 HCE 系 统 。 
2. 阿 里 巴巴 


阿里 巴巴 的 Hadoop 集 群 截至 2012 年 大 约 有 3200 台 服务 器 ， 大 约 30000 物 理 CPU 核 心 ， 总 内 存 100TB， 总 的 存储 容量 超过 60PB， 每 天 的 作业 数目 超过 150000 个 ， 每 天 hive query 查 询 大 于 6000 个 ,每 
天 扫描 数据 量 约 为 7.5PB， 每 天 扫 摘 文件 数 约 为 4 亿 ， 存 储 利 用 率 大 约 为 80%，CPU 利 用 率 平均 为 65%， 峰 值 可 以 达到 80%。 阿 里 巴巴 的 Hadoop 集 群 拥有 150 个 用 户 组 、4500 个 集群 用 户 ， 为 淘宝 、 天 猫 、 
一 淘 、 聚 划算 、CBU、 支 付 宝 提供 底层 的 基础 计算 和 存储 服务 ， 主 要 应 用 包括 


数据 平台 系统 。 
-搜索 支撑 。 
广告 系统 。 
数据 魔方 。 
量子 统计 。 
淘 数 据 。 
-推荐 引擎 系统 。 
搜索 排行 榜 。 


为 了 便于 开发 ， 其 还 开发 了 Web 1DE 继 承 开发 环境 ， 使 用 的 相关 系统 包括 : Hive、Pig、Mahout、Hbase 等 。 


3. 腾 讯 


TDW， 同 时 还 开发 了 自己 的 TDW-I1DE 基 础 开发 环境 。 腾 讯 的 Hadoop 为 腾讯 各 个 产品 线 提供 基础 云 计算 和 云 存 储 服 务 ， 其 支持 以 下 产品 : 
腾讯 社交 广告 平台 。 

- 搜 搜 (SOSO) 。 

拍 拍 网 。 
腾讯 微 博 。 
腾讯 罗盘 。 
“QO 会 员 。 
腾讯 游戏 支撑 。 
“QQ 空间 。 
:朋友 网 。 
腾讯 开放 平台 。 
: 财 付 通 。 
手机 oQ。 
“QQ 音乐 。 


4. 奇 虎 360 


奇 虎 360 主 要 使 用 Hadoop-HBase 作 为 其 搜索 引擎 so.com 的 底层 网 页 存储 架构 系统 ，360 搜 索 的 网 页 可 到 干 亿 记录 ， 数 据 量 在 PB 级 别 。 截 至 2012 年 年 底 ， 其 HBase 集 群 规 模 超 过 300 节 点 ，region 个 数 
大 于 10 万 个 ， 使 用 的 平台 版 本 如 下 。 


:HBase 版 本 : facebook 0.89-fb。 


:HDFS 版 本 : facebook Hadoop-20。 


奇 虎 360 在 Hadoop-HBase 方 面 的 工作 主要 为 了 优化 减少 HBase 集 群 的 启 停 时 间 ， 并 优化 减少 RS 异常 退出 后 的 恢复 时 间 。 
5. 华 为 

华为 公司 也 是 Hadoop 主 要 做 出 贡献 的 公司 之 一 ， 排 在 Google 和 Cisco 的 前 面 ， 华 为 对 Hadoop 的 HA 方案 ， 以 及 HBase 领 域 有 深入 研究 ， 并 已 经 向 业界 推出 了 自己 的 基于 Hadoop 的 大 数据 解决 方案 。 
6. 中 国 移动 


中 国 移动 于 2010 年 5 月 正式 推出 大 云 BigCloud 1.0， 集 群 节 点 达到 了 1024。 中 国 移动 的 大 云 基于 Hadoop 的 MapReduce 实 现 了 分 布 式 计算 ,并 利用 了 HDFS 来 实现 分 布 式 存储 ， 并 开发 了 基于 Hadoop 
的 数据 仓库 系统 HugeTable， 并 行 数据 挖 扬 工 具 集 BC-PDM， 以 及 并 行 数据 抽取 转化 BC-ETL， 对 象 存储 系统 BC-ONestd 等 系统 ， 并 开源 了 自己 的 BC-Hadoop 版 本 。 


中 国 移动 主要 在 电信 和 领域 应 用 Hadoop， 其 规划 的 应 用 领域 包括 : 
-经 分 KPI 集 中 运算 。 


“经 分 系统 ETL/DM。 
“结算 系统 。 
“信和 令 系 统 。 
` 云 计算 资源 池 系 统 。 
` 物 联网 应 用 系统 。 


"E-mail,。 


:IDC 服 务 等 。 


7. 盘 古 搜 索 


盘古 搜索 (目前 已 和 即刻 搜索 合并 为 中 国 搜索 ) 主要 使 用 Hadoop 集 群 作为 搜索 引擎 的 基础 架构 支撑 系统 ， 截 至 2013 年 年 初 ， 集 群 中 机 器 数量 总 计 超过 380 台 ， 存 储 总 量 总 计 3.66PB， 主 要 包括 的 应 用 
如 下 。 


网 页 存储 。 
网 页 解析 。 

` 建 索引 。 
:Pagerank 计 算 。 
-日志 统 计 分 析 。 
.推荐 引擎 等 。 


8. 即 刻 搜索 (人 民 搜 索 ) 


即刻 搜索 (目前 已 与 盘古 搜索 合并 为 中 国 搜索 ) 也 使 用 Hadoop 作 为 其 搜索 引擎 的 支撑 系统 ， 截 至 2013 年 ， 其 Hadoop 集 群 规模 总 计 超过 500 台 节点 ， 配 置 为 双 路 6 核心 CPU，48G 内 存 ，11x2T 存 储 ， 
集群 总 容量 超过 10PB， 使 用 率 在 78% 左 右 ， 每 天 处 理 读 取 的 数据 量 约 为 500TB， 峰 值 大 于 1P， 平 均 约 为 300TB。 


即刻 搜索 在 搜索 引擎 中 使 用 sstable 格 式 存储 网 页 并 直接 将 sstable 文 件 存储 在 HDFS 上 面 ， 主 要 使 用 Hadoop Pipes 编 程 接口 进行 后 续 处 理 ， 也 使 用 Streaming 接 口 处 理 数 据 ， 主 要 的 应 用 包括 : 


网 页 存储 。 
解析。 

` 建 索引 。 
-推荐 引擎 。 


1.6 ”Hadoop 发 行 版 


如 今 Hadoop 与 Google 的 云 计 算 基 础 架构 系统 就 像 当年 Linux 与 UNIX 系 统一 样 ，Hadoop 目 前 已 经 衍生 为 多 个 成 功 的 商业 版 本 。 本 节 将 简要 介绍 主流 的 Hadoop 发 行 版 。 


1.6.1 Apache Hadoop 


Apache Hadoop 是 Hadoop 最 权威 的 官方 版 本 ， 就 像 Linux 的 内 核 与 Linux 的 发 行 版 的 地 位 一 样 ，Apache Hadoop 版 本 是 所 有 商业 发 行 版 之 源 ， 主 要 组 件 为 HDFS 和 MapReduce。 基 于 Hadoop 的 相关 
项 目 Ambari、Hive、HBase、ZooKeeper、OQozie、Pig、Sqoop、Cassandra、Chukwa、Mahout 等 需要 单独 下 载 。 截 至 2013 年 4 月 的 最 新 版 本 为 Hadoop-2.0.3-alpha， 稳 定 版 本 为 Hadoop-1.0.4。 


更 详细 的 信息 可 以 参考 官方 网 站 : http://Hadoop.apache.org/。 


1.6.2 Cloudera Hadoop 


Cloudera 成 立 于 2008 年 ， 是 最 早 将 Hadoop 用 于 商业 化 的 公司 ， 为 其 合作 伙伴 提供 Hadoop 的 商用 解决 方案 ， 主 要 包括 支持 、 咨 询 服务 、 培 训 。2009 年 Hadoop 的 创始 人 Doug Cutting 也 任职 于 
Cloudera 公 司 。Cloudera 产 品 主要 为 CDH、Cloudera Manager、Cloudera Support。CDH 是 Cloudera 的 Hadoop 发 行 版 ， 它 完全 开源 ， 比 Apache Hadoop 在 兼容 性 、 安 全 性 、 稳 定性 上 有 所 增强 。 
Cloudera Manager 是 集群 的 软件 分 发 及 管理 监控 平台 ， 可 以 在 几 个 小 时 内 部 署 好 一 个 Hadoop 集 群 ， 并 对 集群 的 节点 及 服务 进行 实时 监控 。Cloudera Support 即 是 对 Hadoop 的 技术 支持 。Cloudera 的 标 


价 为 每 年 每 个 节点 4000 美 元 。 


Cloudera 发 行 版 的 产品 结构 如 图 1-5 所 示 。 
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图 1-5 Cloudeta Hadoop 的 产品 结构 图 (图 片 来 自 Cloudera 官 方 网 站 ) 


Cloudera 的 Hadoop 发 行 版 在 商用 中 算是 最 成 功 的 ，Cloudera 的 CDH 版 本 集成 了 Hadoop、Pig、Flume、HBase、Hcatalog、Hive、Hue、Mahout、Oozie、Sqoop、Whirr 以 及 Zookeeper 版 本 ， 
并 且 也 是 开源 的 ， 最 新 版 本 为 CDH4.2.0， 使 用 Hadoop-2.0.0+922 作 为 Hadoop 内 核 ， 配 套 的 Hbase 版 本 为 hbase-0.94.2+202。CDH3 的 最 新 稳定 版 为 CDH3U6， 其 使 用 Hadoop-0.20.2+923.475 作 为 内 
核 ， 配 套 的 HBase 版 本 为 hbase-0.90.6+84.89。 


Cloudera 的 CDH 发 行 版 相对 于 官方 社区 版 本 更 适合 在 生成 环境 下 使 用 ， 更 详细 的 信息 可 以 参见 Cloudera 官 方 网 站 : http://www.cloudera.com。 


1.6.3 Hortonworks Hadoop 发 行 版 


Hortonworks 公 司 ， 由 Yahoo 和 Benchmark Capital 于 2011 年 7 月 联合 创建 ， 是 Yahoo 与 硅谷 风 投 公司 Benchmark Capital 合 资 组 建 的 公司 ， 该 公司 成 立 之 初 吸纳 了 25~30 名 专门 研究 Hadoop 的 
Yahoo 工 程 师 ， 这 些 工 程 师 均 在 2005 年 开始 协助 Yahoo 开 发 Hadoop，80% 的 Hadoop 代 码 是 由 这 些 工程 师 开 发 的 。Yahoo 工 程 副 总 裁 、Yahoo 的 Hadoop 开 发 团队 负责 人 Eric Baldeschwieler 出 任 
Hortonworks 的 首席 执行 官 。 


Hortonworks 的 主打 产品 是 Hortonworks Data Platform (HDP) ， 也 同样 是 100% 开 源 产品 。HDP 除 了 包含 常见 的 项 目 外 还 包含 了 Ambari， 一 款 开源 的 安装 和 管理 系统 。HDP 1.0 除 Hadoop 
0.20.205 之 外 ， 还 将 若干 开源 项 目 包含 其 中 ， 用 来 增强 其 平台 自身 的 管理 能 力 ， 如 Ambari， 一 款 开源 的 安装 和 管理 系统 ; HCatalog， 一 个 元 数据 管理 系统 。 此 外 还 有 一 些 常见 的 与 Hadoop 平 台 相 结合 使 用 
的 ， 如 Pig、Hive、HBase 及 Zookeeper 等 产品 。Hortonworks 发 行 版 产品 结构 图 ， 如 1-6 所 示 。 


从 图 1-6 中 可 以 看 到 ，Hortonworks 所 有 产品 结构 中 已 经 集成 了 目前 所 有 的 Hadoop 相 关 项 目 。HDP 的 核心 特点 如 下 。 
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图 1-6 ”Hortonwotks 发 行 版 的 产品 结构 图 (图 片 来 自 Hortonwotks 的 官方 网 站 ) 


-开源 的 集群 管理 系统 : Apache Ambari 


HDP 集 成 了 开源 的 集群 管理 系统 Ambari， 利 用 Ambari 可 以 很 好 地 管理 并 监控 Hadoop 集 群 。 

高 可 用 性 

Hortonworks 是 唯一 的 Hadoop-1.0 的 HA 方案 供应 商 ， 可 以 为 用 户 提供 成 熟 的 Hadoop HA 解决 方案 。 

容量 调度 和 多 租户 

HDP 是 唯一 的 发 布 版 中 集成 了 多 租户 的 Hadoop 集 群 容量 和 公平 调度 器 。 

:元 数据 服务 &HCatalog 

HCatalog 提 供 元 数据 服务 ， 并 通过 REST 接 口 和 Hadoop 交 互 。Hortonworks 创 建 HCatalog， 从 而 简化 了 Hadoop 的 应 用 程序 之 间 以 及 Hadoop 和 其 他 数据 系统 之 间 的 数据 共享 。 
数据 集成 服务 

HDP 包 括 Talend 大 数据 平台 、 领 先 的 开源 整合 工具 ， 可 轻松 连接 Hadoop 集 群 ， 是 无 须 编 写 Hadoop 代 码 的 数据 系统 集成 工具 。 


“ODBC 


Hortonworks 为 Hive 提 供 了 一 个 免费 的 高 性 能 包含 SQL 引擎 的 ODBC 驱 动 接口 ， 用 户 可 以 使 用 任何 的 BI 工 具 ， 其 兼容 所 有 的 SQL-92 接 口 。 


更 详细 的 信息 可 以 参考 Hortonworks 的 官方 网 站 : http://hortonworks.com。 


1.6.4 MapR Hadoop 发 行 版 


MapR 公 司 成 立 于 2009 年 ， 它 提供 发 行 版 的 目的 是 使 Hadoop 变 为 一 个 速度 更 快 、 可 靠 性 更 高 、 更 易于 管理 、 使 用 更 加 方便 的 分 布 式 计算 服务 和 存储 平台 ， 同 时 使 其 性 能 不 断 提 高 。 它 将 极 大 地 扩大 了 
Hadoop 的 使 用 范围 和 增加 了 方式 。 它 包含 了 开源 社区 的 许多 流行 的 工具 和 功能 ， 例 如 Hbase、Hive; 它 还 100% 和 Apache Hadoop 的 APl 兼 容 ; 它 能 够 为 客户 节约 一 半 的 硬件 资源 消耗 ， 使 更 多 的 组 织 能 
够 利用 海量 数据 分 析 的 能 力 提高 竞争 优势 。 


MapR 配 备 了 快照 ， 用 新 架构 重 写 HDF9， 同 时 在 API 级 别 和 目前 的 Hadoop 发 行 版 保持 兼容 ，MapR 版 本 不 再 需要 单独 的 NameNode 机 器 ， 元 数据 分 散在 集群 中 ， 类 似 数据 默认 存储 三 份 ， 不 再 需要 用 
NAS 来 协助 NameNode 进 行 元 数据 备份 ， 因 此 不 会 出 现 SPOF 单 节点 故障 。 还 有 个 重要 的 特点 是 可 以 使 用 NFS 直 接 访问 HDFS， 提 供 了 与 原 有 应 用 的 兼容 性 。 其 镜像 功能 也 很 适合 进行 数据 备份 且 支 持 跨 数 
据 中 心 的 镜像 ; 快照 功能 对 于 数据 的 恢复 作用 明显 。 


MapR 发 行 版 的 产品 结构 图 ， 如 图 1-7 所 示 。 
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图 1-7 MapR 发 行 版 的 整体 结构 图 (图 片 米 自 MapR 官 方 网 站 ) 


从 图 1-7 中 可 以 看 出 ，MapR 也 包含 了 Hive、Pig、Oozie、Sqoop、HBase、Vaidya、Mahout、Cascading、Nagios Integration、Ganglia Integration、Flume、Zookeeper 等 Hadoop 生 态 链 相关 
系统 ， 已 经 成 为 一 个 标准 的 大 数据 平台 。 目 前 它 有 三 个 版 本 M3，M5 和 和 M7， 其 中 M3 是 免费 的 ，M5 和 M7 为 商业 收费 版 。 


更 详细 的 MapR 可 以 参考 官方 网 站 : http://www.MapR.com/。 


1.6.5 IBM Hadoop 发 行 版 


IBM 也 在 2011 年 5 月 推出 了 自己 的 Hadoop 商 业 发 行 版 一 InfoSphere Biglnsights。 该 软件 包括 Apache Hadoop 发 行 版 、 面 向 MapReduce 编 程 的 Pig 编 程 语言 、 针 对 IBM 的 DB2 数 据 库 的 连接 件 ， 以 
及 IBM Bigsheets， 后 者 是 一 种 基于 浏览 器 的 、 使 用 电子 表格 隐喻 (Spreadsheet-metaphor) 的 界面 ， 用 于 探 帘 和 分 析 Hadoop 里 面 的 数据 。1BM 在 平台 管理 、 安 全 认证 、 作 业 调度 算法 、 与 DB2 及 
netezza 的 集成 上 做 了 增强 。 


IBM 的 IlnfoSphere Biglnsights 结 构图 ， 如 图 1-8 所 示 。 


Enhanced Map-Reduce Runtime 
Noooop 本 玉 
-=F Fe 


图 1-8 InfoSphete BigInsights 结 构图 (图 片 来 自 IBM 官 方 网 站 ) 
从 图 1-8 中 可 以 看 出 ，IBM 的 InfoSphere Biglnsights 整 合 了 OLAP 和 OLTP， 其 显著 功能 在 于 通过 过 滤 大 量 的 原始 数据 并 合并 结果 ， 将 结果 以 结构 化 数据 的 形式 保存 在 DBM 或 数据 仓库 中 。 


更 多 关于 InfoSphere Biglnsights 的 信息 可 参考 1BM 官 方 网 站 : http://www.ibm.com/software/cn/data/infosphere/Hadoop/。 


1.6.6 _ Intel Hadoop 发 行 版 


针对 企业 用 户 对 Hadoop 技 术 平 台 的 需要 ，Intel Hadoop 发 行 版 产品 提供 了 一 个 稳定 、 高 效 、 可 管理 的 Hadoop 发 行 版 。Inte| 官 方 网 站 上 称 其 Hadoop 发 行 版 是 经 过 大 量 实际 项 目 在 线 使 用 验证 的 。 
Inte| 为 企业 和 政府 部 门 实现 大 数据 应 用 提供 强 有 力 的 平台 支持 ，Intel 在 Hadoop 上 的 改进 和 功能 的 增强 为 用 户 提 供 了 一 个 高 性 能 、 高 稳定 性 和 可 管理 的 大 数据 应 用 实施 平台 ， 并 提供 全 面 的 专业 支持 。 


Intel Hadoop 发 行 版 的 产品 结构 图 ， 如 图 1-9 所 示 。 
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图 1-9 ”Intel Hadoop 发 行 版 的 产品 结构 图 (Intel IDH 文 档 ) 


从 图 1-9 中 可 以 看 出 ，Intel Hadoop 发 行 版 也 集成 了 Hive、Pig、HBase 等 Hadoop 的 相关 系统 ， 其 显著 之 处 是 增加 了 R 语 言 的 RHadoop 的 扩展 ， 可 以 利用 R 丰 富 的 统计 分 析 库 来 分 析 Hadoop 中 存储 的 数 
据 。 


Intel Hadoop 免 费 版 增强 功能 包括 : 
:大 数据 复杂 分 析 和 管理 能 力 跨 数据 中 心 HBBase 大 表 
. HBase 全 文 检索 和 准 实时 查询 
“ 分 布 式 R 语 言 支持 
:大 数据 高 速 即 时 分 析 能 
高 性 能 HBase 查 询 汇 总 引擎 
: HBase 的 HiveQL 支 持 
:自动 HDFS 热 点 数据 复制 倍数 增加 
` 高 级 集群 负载 均衡 能 力 


大 数据 平台 管理 能 力 


图 形 化 安装 配置 部 署 工具 
: 集中 式 图 形 化 监控 报警 功能 
. SmartTunet 动 态 集 群 优化 工具 


更 多 详细 资料 可 参考 Intel 官 方 网 站 : http://www.intel.cn/idh。 


1.6.7 ”华为 Hadoop 发 行 版 


华为 在 硬件 上 具有 天然 的 优势 ， 在 网 络 、 虚 拟 化 、PC 等 方面 都 有 很 强 的 硬件 实力 。 华 为 的 Hadoop 版 本 基于 自主 研发 的 Hadoop HA 平台 ， 具 有 构建 NameNode、JobTracker、HiveServer 的 HA 功 
能 ， 进 程 故障 后 系统 自动 进行 Failover， 无 须 人 工 干预 ， 这 也 是 对 Hadoop 功 能 不 足 的 小 修补 ， 远 不 如 MapR 解 决 得 彻底 。 华 为 在 Hadoop 社 区 中 的 Contributor 和 Committer 也 是 国内 最 多 的 ， 算 是 国内 技 
术 实 力 较 强 的 公司 。 


1.7 x 


本 章 主要 从 宏观 的 角度 认识 Hadoop， 通 过 介绍 Hadoop 的 起 源 ，Hadoop、 大 数据 、 云 计算 三 者 的 关系 ， 以 及 Hadoop 的 基本 架构 思想 ， 使 用 户 明白 了 什么 是 Hadoop 这 个 问题 ， 然 后 介绍 了 Hadoop 
在 国内 外 的 应 用 现状 ， 使 读者 知道 使 用 Hadoop 可 以 做 什么 ， 最 后 介绍 了 Hadoop 的 主要 发 行 版 本 。 第 1 章 内 容 主要 讲解 了 Hadoop 是 什么 以 及 可 以 用 Hadoop 做 什么 这 两 个 问题 。 


第 2 草 ”Hadoop 使 用 之 初 体验 


通过 第 1 章 的 讲述 大 家 已 经 基本 了 解 了 Hadoop 的 基本 原理 以 及 数据 处 理 流程 ， 然 而 “ 纸 上 得 来 终 沉 浅 ， 绝 知 此 事 要 躬 行 ”。， 我 们 还 需要 实践 一 个 简单 的 应 用 来 更 真实 地 认识 Hadoop， 以 便 从 具体 的 应 
用 角度 对 它 的 工作 方式 有 一 个 初步 的 了 解 。 学 习 是 从 简 入 难 的 过 程 ， 只 要 把 最 简单 的 内 容 搞 清楚 了 ， 复 杂 的 内 容 也 就 更 容易 深入 理解 了 。 下 面 就 通过 几 个 小 节 来 介绍 Hadoop 版 本 自 带 的 最 为 简单 的 词 频 统 
计 程 序 ， 学 习 这 个 程序 就 像 学 习 一 般 程序 中 的 “hello，world” 同 样 经 典 。 


2.1 “搭建 测试 环境 


在 开始 使 用 Hadoop 之 前 还 需要 有 一 个 Hadoop 的 基础 测试 环境 ， 由 于 本 章 内 容 是 Hadoop 使 用 的 入 门 体验 ， 我 们 就 搭建 一 个 简单 的 伪 分 布 式 模式 来 提供 一 个 测试 环境 。 关 于 生产 环境 下 的 Hadoop 的 安 
装 、 部 署 将 在 后 续 章 节 详 细 讲解 。 
2.1.1 软件 与 准备 


系统 平台 : Hadoop 支 持 GUN/VLinux 系 统 ， 并 推荐 使 用 Linux 作 为 开发 测试 和 生产 环境 的 平台 ，Win32 仅 支持 开发 测试 环境 ， 不 推荐 其 作为 生产 环境 系统 ， 这 里 推荐 直接 使 用 GUN/VLinux 作 为 Hadoop 的 
测试 环境 。 


软件 准备 : jdk 版 本 需要 java1.6.x 以 上 ， 安 装 jd 后 并 配置 JAVA_HOME 环 境 变 量 ， 以 及 PATH 环境 变量 ， 还 需要 ssh 及 rsync 软 件 。 对 于 ubuntu Linux 发 行 版 ， 使 用 以 下 命令 进行 安装 : 


sudo apt-get install ssh 
sudo apt-get install rsync 


对 于 RedHat/CentOS 使 用 以 下 命令 进行 安装 : 


sudo yum install ssh 
sudo yum install rsync 


由 于 Hadoop 使 用 ssh 协 议 来 管理 远程 守护 进程 ， 因 此 还 需要 配置 免 密 码 登 录 ， 对 于 单机 伪 分 布 式 使 用 以 下 命令 进行 操作 : 


ssh-keygen -t dsa -P '' -f ~/.ssh/id dsa 
cat ~/.ssh/id dsa.pub >> ~/.ssh/authorized keys 


然后 就 可 以 使 用 ssh localhost 命 令 来 测试 是 否 还 需要 密码 才能 登录 了 ， 如 果 不 需要 密码 就 可 以 进入 ， 则 说 明 免 密码 配置 成 功 。 


2.1.2 ”安装 与 配置 


上 一 节 讲 述 了 要 安装 Hadoop 测 试 环境 所 必需 的 一 些 软件 及 基础 环境 配置 ， 本 节 就 开始 安装 并 配置 一 个 简单 的 Hadoop 伪 分 布 式 环境 。 


首先 下 载 Hadoop 的 稳定 版 Hadoop-1.0.4.tar.gz， 这 里 使 用 cnnic.cn 镜 像 地 址 下 载 ， 使 用 以 下 命令 进行 操作 : 


wget http:// mirrors.cnnic.cn/apache/Hadoop/common/stable/Hadoop-1.0.4.tar.gz 


然后 进行 解压 : 


tar ~xzvf Hadoop-1.0.4.tar.gz 
解压 之 后 建议 将 Hadoop 的 bin 目 录 配 置 到 PATH 环境 变量 ， 然 后 进 到 Hadoop 的 conf 目 录 对 Hadoop 进 行 伪 分 布 式 配置 ， 配 置 步骤 如 下 。 
(1) 配置 core-site.xml 


这 个 配置 是 Hadoop 的 核心 配置 ， 至 少 需 要 配置 HDFS 的 地 址 及 端口 号 ， 这 里 使 用 以 下 最 简单 的 配置 方法 : 


<configuration> 
<property> 
<name>fs.default .name</name> 
<value>hndfs:// localhost:9000</value> 
</property> 
</configuration> 


fs.default.name 用 于 指定 NameNode 的 IP 地 址 和 端口 号 ，localhost 就 是 HDFS NameNode 的 地 址 ，9000 是 HDFS 的 NameNode RPC 交 互 端口 。 
(2) 配置 hdfs-site.xml 


这 里 主要 配置 HDFs 的 相关 属性 参数 ， 简 单 配置 如 下 : 


<configuration> 
<property> 
<name>dfs.replication</name> 
<value>1</value> 
</property> 
<property> 
<name>dfs.name .dir</name> 
<value>/home/nuoline/hdfs-filesystem/name</value> 
</property> 
<property> 
<name>dfs .data.dir</name> 
<value>/home/nuoline/hdfs-filesystem/data</value> 
</property> 
</configuration> 


dfs.replication 用 于 指定 HDFS 中 每 个 Block 块 被 复制 的 次 数 ， 起 到 数据 元 余 备 份 的 作用 。 在 典型 的 生产 系统 中 ， 这 个 数 常 被 设置 为 3， 这 里 是 伪 分 布 式 ， 只 有 一 个 节点 ， 因 此 设置 为 1。dfs.name.dir 用 
于 配置 HDFS 的 NameNode 的 元 数据 ， 以 逗号 隔 开 ，HDFS 会 把 元 数据 宛 余 复制 到 这 些 目录 下 。dfs.data.dir 用 于 配置 HDFS 的 DataNode 的 数据 目录 ， 以 逗号 “，” 隔 开 ，HDFS 会 把 数据 存在 这 些 目录 下 。 
这 两 个 配置 默认 都 在 tmp 目 录 下 ， 建 议 用 户 在 配置 时 使 用 自己 创建 的 目录 即 可 。 


(3) 配置 map-site.xml 


配置 map-site.xmI 的 代码 如 下 : 


<configuration> 
<property> 


<name>mapred.job.tracker</name> 
<value>localhost:9001</value> 


</property> 
</configuration> 


mapred.job.tracker 是 MapReduce Jobtracker 的 IP 地 址 及 端口 号 ，localhost 就 是 MapReduce Jobtracker 的 地 址 ，9001 是 MapReduce Jobtracker RPC 交 互 端 口 。 


以 上 仅仅 是 对 伪 分 布 式 的 一 个 简单 配置 ， 主 要 用 于 测试 环境 的 搭建 ， 生 成 环境 下 的 配置 参数 详解 可 见 后 续 章 节 的 内 容 介绍 。 


(4) 配置 hadoop 


-env.sh 


hadoop-env.sh 用 于 配置 集群 特有 的 变量 值 ， 这 里 至 少 需要 配置 JAVA_HOME 环 境 变 量 。 


在 安装 配置 了 Hadoop 的 伪 分 布 式 环境 后 就 可 以 启动 Hadoop 了 ， 首 先 需要 格式 化 HDFSs 分 布 式 文件 系统 ， 进 入 Hadoop 的 bin 目 录 ， 操 作 命令 如 下 : 


hadoop namenode -— 


format 


正常 格式 化 HDFS 的 显示 截图 ， 如 图 2-1 所 示 。 


nuolineGubuntu:—$ hadoop mamenede -tormat 
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86:31:53 INFO util .GSet: 2% max memory = 13.33375 MB 
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S66: 31:53 INFO util.6set: recommended=4194364, actual=4194364 

86:31:54 INFO namenode.FSNamesystem: fsQwner=nuoline 
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图 2-1 正常 格式 化 HDFS 的 显示 截图 


然后 就 可 以 启动 Hadoop， 进 入 Hadoop 的 bin 目 录 ， 操 作 命 令 如 下 : 


start-all.sh 


运行 之 后 ， 执 行 jps 命 令 可 以 看 到 Hadoop 的 所 有 守护 进程 ， 正 常 的 显示 截图 ， 如 图 2-2 所 示 。 


UDLLInmeaubuntu :~ 机 start-all.sh 
starting namenode, logging to /home/nuolinej/hadoop-1.9.4/ libexec/../Logs/h 
adoop-nuoline-namenode-ubuntyu.out 
ocalhost: starting datanode, logging to /home/nuoline/hadoop-1.90.4/libexe 
.YLogsrhadoop-nuoLlne-datanode-ubuntu .out 
ocalhost: starting secondarynamenode, logging to /home/nuoline/hadoop-1.0 
.4/libexec/../logs/hadoop-nuoline-secondarynamenode-ubunty.out 
starting Jobtracker, logging to yhome/nuoline/hadoop-1.0.4/l1ibexec/../logs 
‘hadoop-nuoline-jJobtracker-ubuntu .out 
ocalhost: starting tasktracker, logging to jhome/nuoline/hadoop-1.0.4/11b 
xec/f. .logs/hadoop-nuoline-tasktracker-ubuntu.out 
uolinedubuntyu:~$ ]ps 
2269 DataNode 
2509 JobTracker 
432 SecondaryNameNode 
127 NameNode 
2671 TaskTracker 
1721 Jps 


图 2-2 ”Hadoop 启 动 以 及 守护 进程 显示 截图 


从 图 2-2 中 可 以 看 到 ， 在 执行 start-all.sh 启 动 命令 后 ，Hadoop 首 先 启动 了 NameNode 的 守护 进程 ， 紧 接着 是 DataNode 和 SecondaryNameNode 守 护 进程 ， 然 后 是 Jobtracker 和 和 TaskTracker 守 护 进 
程 。 使 用 jps 命 令 后 就 可 以 看 到 伪 分 布 式 下 启动 的 所 有 守护 进程 了 ， 其 中 NameNode、DataNode 及 Secondary-NameNode 三 个 进程 是 HDFS 的 守护 进程 ; JobTracker 和 TaskTracker 是 MapReduce 的 守护 
进程 。 之 所 以 称 这 些 进程 为 伪 分 布 式 模式 ， 就 是 因为 这 5 个 守护 进程 都 在 一 台 机 器 节点 运行 ， 在 分 布 式 的 情况 下 ameNode、SecondaryNameNode、JobTracker 是 Master 节 点 ,分别 独立 在 一 台 机 器 节 
点 运行 ，DataNode 和 TaskTracker 是 Slaver 节 点 ， 也 在 同一 台 机 器 节点 运行 。 


oy | 局) localhost:5| 
NameNode '|ocalhost:9000， 


started: SUN APTr 21 06:435:12 PDT 2013 

Version: 1 .0.4,7r14393290 

Compiled: Wed ct 3053:13:58 UTC 2012 by hortonfo 
Upgrades: There are no Upgrades 1Im progress. 


Cluster Summary 


files and directories, 1 blocks = 7 total. Heap Size is 31.32 MB / 966.69 MB (3%) 
Configured Capacity 。 sb.6 GB 
DFS Used 40 KB 


Non DFS Used 5.94 GB 
DFS Remaining :90.67 GB 
DFS Useds 

DFS Remainings 


Number of Under-Replicated Blocks 


图 2-3 HDFS 的 Web 界 面 


还 可 以 通过 Hadoop NameNode 和 JobTracker 的 Web 接 口 来 查看 集群 是 否 启动 成 功 ， 其 访问 地 址 如 下 : 


:NameNode 为 http://localhost: 50070/ 


"JobTracker 为 http://localhost: 50030/ 
Web 界 面 的 现实 截图 是 如 图 2-3 所 示 的 HDFS 的 Web 界 面 。 
从 图 2-3 中 就 可 以 看 到 Hadoop 集 群 的 配置 容量 、 使 用 情况 及 节点 是 否 正常 等 集群 信息 ， 也 可 以 直接 在 浏览 器 的 Web 界 面 上 直接 浏览 HDFs 的 内 容 以 及 日 志文 件 。 


MapReduce 的 Web 界 面 ， 如 图 2-4 所 示 。 


有 ”| localhost 
localhost Hadoop Map/Reduce Administration 


State: RUNNING 

started: Sun 只 PT 21 06:45:17 POT 2013 

Versign: 1.0.4, rl1393290 

Compililed: Wed Oct 3 05:13:58 UTC 2012 by hortonfeo 
Identifier: 201304210645 


Cluster Summary ee Size is 15.19 MB/9366.69 MB) 


Running Running Total Occupied | Reduce 


| . AMvg. 
Map Reduce Map 1 | Task 
Tasks Tasks | | Slots Bb 要 acity | Capacity Tasks/Node 


0 [ | 4.00 


Scheduling Information 


C= Name |State Scheduling Information 


] ruUnmnin 吕 | 网 筷 


图 2-4 MapReduce 的 Web 界 面 展 示 图 


从 图 2-4 中 就 可 以 看 到 MapReduce 的 相 天 情况 ， 包 括 集群 Map 和 Reduce 的 槽 位 数 及 最 大 容量 ， 以 及 提交 的 作业 数 。Hadoop MapReduce 默 认 使 用 FIFO 调 度 器 ， 因 此 默认 有 一 个 default 队 列 ， 用 户 提 
交 的 全 部 作业 都 会 被 提交 到 default 队 列 并 使 用 先进 先 出 FIFO 调 度 器 调度 运行 。 


如 果 要 停止 Hadoop 运 行 可 以 使 用 以 下 命令 : 


stop-all.sh 


2.2 ”算法 分 析 与 设计 


单词 词 频 统计 WordCount 是 Hadoop 自 带 的 一 个 简单 的 应 用 ， 它 可 以 计算 出 指定 文本 集中 每 一 个 单词 出 现 的 次 数 。 要 利用 MapReduce 编 程 模型 去 实现 一 个 词 频 统计 的 并 行程 序 ， 对 于 开发 者 来 讲 需要 
做 两 件 事 : 第 一 是 如 何 将 顺序 执行 的 词 频 统计 算法 流程 转化 为 MapReduce 的 处 理 模式 ， 具 体 就 是 如 何 设计 Map 和 Reduce 的 输入 和 输出 的 键 值 对 ， 以 及 Map 和 Reduce 分 别 如 何 处 理 ， 而 具体 的 Map 和 
Reduce 数 据 流 控制 是 由 Hadoop 来 做 的 ， 开 发 者 无 顷 干涉 ; 第 二 就 是 根据 MapReduce 的 算法 设计 俯 代码 编程 实现 Hadoop 的 MapReduce 函 数 接口 。 下 面 分 别 设 计 Map 和 Reduce 函 数 。 


2.2.1 ”Map 设计 
在 设计 Map 时 ， 输 入 的 是 文档 ， 上 默认 Map 函 数 的 输入 key 是 行 偏 黎 ，value 是 一 行 本 身 的 内 容 ， 当 然 可 以 指定 key 为 文档 id， 那 么 在 Map 中 就 可 以 这 样 处 理 : 
Map- (文档 id， 文 档 )-( 词 ， 计 数 ) 
需要 将 文档 内 容 处 理 为 < 词 ， 计 数 > 键 值 对 ， 这 里 的 词 是 分 词 。 为 了 简化 我 们 只 考虑 英文 状态 ， 因 此 就 不 涉及 中 文 分 词 了 ， 计 数值 可 以 直接 指定 为 1， 空 格 切 分 后 直接 输出 < 词 ，1> 键 值 对 。 


Map 处 理 算法 的 伪 代 码 如 下 : 


Class Mapper 
Method Map (docid a,doc qd) 
For each term 七 属于 d do 
Emit (term t, count 1) 


2.2.2 ” Reduce 设计 


在 Reduce 设 计 中 ， 输 入 就 是 Map 的 输出 ， 也 就 是 Reduce 输 入 的 键 值 对 就 是 Map 输 出 的 键 值 对 ， 同 时 还 需要 注意 在 Map 处 理 完 之 后 是 会 按照 key 进 行 排序 的 ， 因 此 在 Reduce 处 理 之 前 Map 的 结果 就 已 
经 是 有 序 的 了 了， 这样 Map 结 果 中 相同 的 key 的 value 都 全 部 在 一 起 了 ， 那 么 Reduce 函 数 就 可 以 这 样 设计 : 


Reduce …( 词 ， 计 数 [.….] ) 一 ( 词 ， 计 数 求 和 ) 


在 Reduce 中 需要 对 相同 key 的 value 值 求 和 ， 这 样 就 可 以 得 到 每 一 个 单词 的 频率 。Reduce 处 理 算法 的 伪 代 码 如 下 : 


Class Reducer 
Method Reduce (term t,count[cl,c2,http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/...]) 
Sum =0 
For each count c 属于 count[cl1,c2,http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/...] do 
sum=sumt+c 
Emit (term t, count sum) 


Reduce 算 法 的 思想 很 简单 ， 就 是 对 于 每 一 个 单词 term， 将 其 所 有 值 相 加 ， 然 后 输出 。Reduce 就 是 一 个 归 约 求 和 的 过 程 ， 用 户 不 需要 关心 Map 之 后 的 排序 ， 以 及 Map 的 输出 被 shuffle 映 射 到 哪些 
Reduce 作 为 输入 ， 这 些 都 是 用 Hadoop 框 架 自动 完成 的 。 


2.3 ”实现 接口 


根据 上 一 节 的 单词 统计 算法 设计 就 可 以 很 容易 地 实现 基于 MapReduce 的 程序 。Hadoop 对 于 不 同 的 开发 者 提供 了 三 种 接口 : 第 一 种 就 是 原生 的 Hadoop java api 接 口 ; 第 二 种 就 是 Hadoop Streaming 
接口 ， 是 通过 标准 输入 /输出 交互 的 ， 可 以 使 用 任何 能 操纵 标准 输入 /输出 的 语言 来 编写 MapReduce 程 序 ， 第 三 种 就 是 Hadoop Pipes 接 口 ， 专 门 针 对 C/C++ 的 接口 ， 使 用 socket 通 信 作 为 用 户 程序 和 
Hadoop 来 进行 交互 。 下 面 将 分 别 介绍 如 何 使 用 这 三 种 接口 来 实现 单词 词 频 统 计 的 MapReduce 应 用 。 


2.3.1 Java API 实 现 


对 Java 程 序 员 来 讲 ， 直 接 调用 Hadoop 的 Java APl 来 实现 是 最 为 方便 的 ， 要 使 用 Java APl 至 少 需要 实现 三 个 重要 组 件 : Map 类 、Reduce 类 、 驱 动 Driver。 下 面 将 具体 实现 Java API 的 词 频 统计 程序 。 


(1) 实现 Map 类 : WordcountMapperjava， 核 心 代 码 如 下 : 


import java.io.IOException; 
import java.util.StringTokenizer; 
import org.apache.hadoop.io.IntWritable; 
import org.apache.hadoop.io.Text; 
import org.apache.Hadoop.MapReduce .Mapper; 
public class WordcountMapper 
extends Mapper<Object, Text, Text, IntWritable>{ 
private f?inal static IntWritable one = new IntWritable (1); 
private Text word = new Text () ， 
public void map (Object key, Text value, Context context) 
throws IOException, InterruptedException { 
StringTokenizer itr = new StringTokenizer (value.toString () ) ， 
while (itr.hasMoreTokens()) { 
word.set (itr.nextToken () ) ， 
context .write (word, one); 
} 
} 
} 


首先 要 实现 Map 需 要 继承 Hadoop 的 Mapper 类 ， 至 少 需 要 实现 其 中 的 map 方 法 ， 其 中 Mapper 中 的 map 方 法 通过 指定 的 输入 文件 格式 一 次 处 理 一 行 ，value 就 是 map 函 数 接收 到 的 输入 行 ， 然 后 通过 
StringTokenizer 以 空格 为 分 隔 符 将 一 行 切 分 为 若干 tokens， 之后， 输出 <word，1> 形 式 的 键 值 对 并 将 它 写 入 org.apache.hadoop.mapred.OutputCollector 中 。 为 了 更 加 清晰 地 认识 Map 阶 段 的 处 理 ， 我 
们 假设 有 三 个 文本 a、b、c， 使 用 上 述 实 现 的 处 理 流程 如 图 2-5 所 示 。 


从 图 2-5 中 可 以 看 到 对 于 文件 A 的 输入 ， 相 应 的 Map 处 理 之 后 还 会 进行 sort， 最 终 Map 输 出 如 下 : 


<Hello,1> 

<nuoline,1> 
<nuoline,1> 
<Welcome,1> 


对 于 文件 B， 执 行 相应 的 sort 之 后 最 终 Map 输 出 如 下 : 


<hadoop,1 
<hadoop,l1 
<Hello,1> 

<Welcome,1> 


VYV 


对 于 文件 C， 执 行 相应 的 sort 之 后 最 终 Map 输 出 如 下 : 


<cloud,1> 
<cloud,1> 
<Hello,1> 
<Welcome,1> 


A. 

Hello nuoline 
We lcome 
nuoline 


B. 
Hello hadoop 
Welcome hadoop 


GC. 
Hello cloud 
Welcome cloud 


Map (k, v) { 


for each word w 
Col lect (w, 1) : 


} 


(2) 实现 Reduce 类 : WordcountReducerjava， 核 心 代码 如 下 : 


图 2-5 


Im V 


词 频 统 计 Map 处 理 示意 图 


Map 输 出 : 


<He| lo, 1> 

<nuoline, 1> 
<We|come, 1> 
<nuoline, 1> 


<He| |o, 1> 
<hadoop, 1> 
<We|lcome, 1> 
<hadoop, 1> 


<He| |o, 1> 
<cloud, 1> 
<We|come, 1> 
<cloud, 1> 


Map 最 终 输 


<Hello, 1> 

<nuol ine, 1> 
<nuol ine, 1> 
<We lcome, 1> 


<hadoop, 1> 
<hadoop, 1> 
<Hello, 1> 

<We lcome, 1> 


<cloud, 1> 
<cloud, 1> 
<Hello, 1> 
<We |come, 1> 


import java.io.IOException; 
import org.apache.hadoop.io.IntWritable; 
import org.apache.hadoop.io.Text; 
import org.apache.hadoop.mapreduce.Reducer; 
public class WordcountReducer 

extends Reducer<Text,IntWritable,Text,] 


[IntWwritable> { 


private IntWritable result = new IntWritable(); 
public void reduce (Text key, lterable<IntWritable> values, 


Context context) 
throws IOException, 


InterruptedException { 


int sum = 0; 
for (IntWritable val 
sum += val .get (); 


: Values) { 


result.set (sum);}; 
context .write (key, result); 
} 
} 


实现 WordcountReducer 类 需要 继承 Reducer， 至 少 需 


同一 个 key 的 所 有 value。 此 处 key 是 一 个 单词 ，values 是 词 频 。 只 需要 将 所 有 的 values 相 加 ， 就 可 以 得 到 这 个 单词 总 的 出 现 次 数 。 


对 于 图 2-5 的 Map 输 出 ，Reduce 处 理 的 示意 图 如 图 2-6 所 示 。 


要 实现 其 中 的 reduce 方 法 ， 输 入 参数 中 的 key 和 values 是 由 Map 任 务 输 出 的 中 间 结 果 ，values 是 一 个 lterator， 遍 历 这 个 lterator 就 可 以 得 到 属于 


Redcue 输 入 : 


<He| lo, 1> 

<nuoline, 1> 
<nuoline, 1> 
<We|lcomel, > 
Reduce 输 出 


<cloud，22> 
<hadoop, 2> 
<Hello, 3> 


Internal Sort Grouping 
“cloud->[L1, 1]> 
<hadoop—> [1, 1]> 

\ <Hello->[1, 1, 1]> 


snuolinme blll . = | <nuol ine, 2> 
<Welcome->[1, 1, 1]> 有 国有 


Reduce (K, V) | 
Int count=0 


<hadoop, 1> 
<hadoop, 1> 
for each v In VY 


<Hel lo, 1> 
<We |comel, > 


<cloud, 1> 
<cloud, 1> 
<He| lo, 1> 
<We|comel, > 


图 2-6” 词 频 统计 的 Redcue 处 理 示 意图 


从 图 2-6 中 可 以 看 出 ，Reduce 的 输入 就 是 Map 的 输出 ， 然 后 会 进行 sort group， 将 Reduce 的 输入 变 为 <term，list<value>> 的 形式 ， 接 着 Hadoop 框 架 会 使 用 用 户 指定 的 Reduce 类 处 理 数 据 ， 并 最 终 
输出 。 当 然 用 户 还 可 以 指定 combiner， 每 次 Map 运 行 之 后 ， 会 按照 key 对 输出 进行 排序 ， 然 后 把 输出 传递 给 本 地 的 combiner (可 以 指定 和 Reducer 一 样 ) ， 进 行 本 地 聚合 。 运 行 combiner 能 减少 数据 的 通 
言 量 并 降低 Reduce 的 负载 。 


(3) 实现 运行 驱动 


运行 驱动 的 目的 就 是 在 程序 中 指定 用 户 的 Map 类 和 Reduce 类 ， 并 配置 提交 给 Hadoop 时 的 相关 参数 。 例 如 实现 一 个 词 频 统 计 的 wordcount 驱 动 类 : MyWordCountjava， 其 核心 代码 如 下 : 


t org.apache.hadoop.conf.Configuration; 
t org.apache.hadoop.fs.Path; 

t org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Text; 


t org.apache.hadoop.mapreduce .Job; 
t org.apache.hadoop.mapreduce.1ib.input.FileInputFormat; 


t org.apache.hadoop.mapreduce.1ib.output.FileOutputFormat; 

public class MyWordCount { 
public static void main(String[] args) throws Exception { 

Configuration conf = new Configuration(); 

Job job = new Job (conf, “word count" 

job.setJarByClass (MyWordCount .class); 

job.setMapperClass (WordcountMapper .class); 

job.setCombinerClass (WordcountReducer.class); 


er 


job.setReducerClass (WordcountReducer .class); 
job.setOutputKeyClass (Text .class); 
job.setOutputValueClass (IntWritable.class); 
FileInputFormat.addIinputPath (job, new Path (args{[0])); 
FileOutputFormat.setOutputPath (job, new Path (args[1])); 
System.exit (job.waitForCompletion(true) ? 0 : 1); 


从 上 述 核心 代码 中 可 以 看 出 ， 需 要 在 main 函 数 中 设置 输入 /输出 路 径 的 参数 ， 同 时 为 了 提交 作业 ， 需 要 job 对 象 ， 并 在 job 对 象 中 指定 作业 名 称 、Map 类 、Reduce 类 ， 以 及 键 值 的 类 型 等 参数 。 


2.3.2 Streaming 接 口 实 现 


Streaming 接 口 就 是 使 用 UNIX 标 准 流 作为 Hadoop 和 程序 之 间 的 接口 ， 可 以 使 用 任何 语言 ， 仅 需要 编写 的 MapReduce 程 序 能 够 读 取 标准 输入 并 写 入 标准 输出 ，Hadoop streaming 可 以 帮助 用 户 创建 
和 运行 一 类 特殊 的 MapReduce 作 业 ， 这 些 作 业 是 由 一 些 可 执行 文件 或 脚本 文件 充当 Mapper 或 Reducer。 


如 果 一 个 可 执行 文件 被 用 于 Mapper， 则 在 Mapper 初 始 化 时 ， 每 一 个 Mapper 任 务 会 把 这 个 可 执行 文件 作为 一 个 单独 的 进程 启动 。Mapper 任 务 在 运行 时 把 输入 切 分 成 行 并 把 每 一 行 提 供给 可 执行 文件 
进程 的 标准 输入 。 同 时 ，Mapper 收 集 可 执行 文件 进程 标准 输出 的 内 容 ， 并 把 收 到 的 每 一 行内 容 转化 成 key/value 对 ， 作 为 Mapper 的 输出 。 在 默认 情况 下 ， 一 行 中 第 一 个 tab 之 前 的 部 分 作为 key， 之 后 的 
(不 包括 tab) 作为 value。 如 果 没 有 tab， 整 行 作 为 key 值 ，value 值 为 null。 


如 果 一 个 可 执行 文件 被 用 于 Reducer， 每 个 Reducer 任 务 会 把 这 个 可 执行 文件 作为 一 个 单独 的 进程 启动 。Reducer 任 务 在 运行 时 把 输入 切 分 成 行 并 把 每 一 行 提 供给 可 执行 文件 进程 的 标准 输入 。 同 
时 ，Reducer 收 集 可 执行 文件 进程 标准 输出 的 内 容 ， 并 把 每 一 行内 容 转 化 成 key/value 对 ， 作 为 Reducer 的 输出 。 在 默认 情况 下 ， 一 行 中 第 一 个 tab 之 前 的 部 分 作为 key， 之 后 的 (不 包括 tab) 作为 value。 关 
于 Map 和 Reduce 中 的 key 和 value 的 切 分 方式 ， 用 户 是 可 以 自 定义 的 。 下 面 介绍 在 C+ + 语言 中 使 用 Steaming 接 口 实现 词 频 统计 wordcount 的 例子 。 


(1) Map 实 现 


Map 需 要 将 输入 文本 转化 为 <term，1> 的 格式 输出 ， 因 此 Map 程 序 WordcountMap.cpp 代 码 如 下 : 


#include <stdio.h> 
#include <string> 
#include <iostream> 
using namespace stgqd; 
int main(){ 
string key; 
int Value = 1; 
while (cin>>key) { 
if(!key.empty ()) 


cout<<key<<"\t"<<value<<engl1; 
} 


return 0;}; 


在 代码 中 我 们 假定 处 理 的 是 英文 ， 因 此 这 里 不 涉及 分 词 ， 每 从 标准 输入 取得 一 个 词 就 输出 为 <term，1> ， 键 值 对 之 间 使 用 tab 键 分 割 。 
(2) Redcue 实 现 


Reduce 的 输入 就 是 Map 的 输出 ， 需 要 注意 的 是 输入 也 是 来 自 标准 输入 ， 同 时 输入 数据 是 Map 输 出 后 已 经 根据 key 排 序 之 后 的 。Reduce 程 序 WordcountReduce.cpp 的 代码 如 下 : 


#include <iostream> 
#include <map> 
using namespace stgqd; 
int main() { 
map<string,int> wordMap; 
map<string,int>: :iterator it; 
string key; 
int value; 
while (cin>>key>>value) { 
wordMap[key] +=value; 


} 
for (it=wordMap.begin();it != wordMap.end();it++) { 
cout<<it->first<<"\t"<<it->second<<endgdl; 


} 


return 0; 


Reduce 的 处 理 逻 辑 也 很 简单 ， 使 用 map<string，int> 数 据 结构 来 保持 接收 的 键 值 对 ， 从 标准 输入 读 取 一 行 ， 然 后 对 于 key 相 同 的 对 其 值 相 加 。 最 终 输 出 map<string，int> 的 内 容 。 


全 注意 上 述 Reduce 代 码 是 一 种 比较 简单 易 懂 的 写法 ， 由 于 Reduce 的 输入 就 是 Map 的 输出 ， 而 Map 的 输出 是 已 经 以 key 为 键 排序 好 的 数据 ， 因 此 使 用 Streaming 接 口 编写 Reduce 程 序 时 可 以 利用 这 一 点 来 提高 Reduce 的 数据 处 理 
效率 ， 而 没有 必要 将 数据 都 全 部 读 入 内 存 进 行 统计 ， 用 户 在 处 理 时 只 需要 判断 key 的 分 界 即 可 ， 这 种 写法 参见 11.1.1 节 中 的 示例 。 


以 上 是 使 用 C+ + 来 实现 的 streaming 接 口 ， 当 然 任何 可 执行 程序 都 可 以 使 用 streaming 接 口 编写 并 行程 序 。 例 如 ， 使 用 Linux shell 命 令 实现 词 频 统计 的 代码 如 下 : 


$HADOOP HOME/bin/Hadoop jar SHADOOP HOME/hadoop-streaming.jar \ 
-input yourIinputDirs \ 
-output yourOutputDir \ 
-mapper /bin/cat \ 
-reducer /usr/bin/wc 


在 上 述 代 码 中 就 是 直接 使 用 cat 命 令 作 为 Map， 使 用 wc 命令 作为 Reduce 的 。 


2.3.3 ”Pipes 接 口 实现 


Hadoop 管 道 与 流 不 同 ， 流 使 用 标准 输入 和 输出 让 用 户 的 Map 和 Reduce 节 点 之 间 相 互 交流 。 而 管道 使 用 socket 作 为 tasktracker 与 用 户 MapReduce 进 程 之 间 的 通道 。 下 面 我 们 同样 使 用 Hadoop 发 行 版 
中 自 带 单词 统计 的 例子 ， 这 个 Map 和 Reduce 函 数 是 使 用 C/C++ 编写 的 ， 然 后 使 用 管道 机 制 在 Hadoop 集 群 中 运行 用 户 的 作业 ， 在 使 用 Hadoop Pipes 时 需要 在 头 文件 中 包含 hadoop/Pipes.hh、 
hadoop/TemplateFactory.hh、hadoop/StringUtils.hh 这 3 个 头 文件 。 


需要 注意 的 是 Hadoop 版 本 自 带 的 Pipes 例 子 中 有 三 个 实现 ， 对 应 的 源码 文件 分 别 为 : wordcount-simple.cc、wordcount-part.cc 及 wordcount-nopipe.cc。 下 面 对 这 三 个 文件 进行 说 明 。 


wordcount-simple.cc， 是 最 基本 的 Pipes 编 程 ，Mapper 和 Reducer 使 用 C++ 编写 ，RecordReader、Partitioner 和 RecordWriter 均 采用 Hadoop 内 置 的 Java 实 现 ， 其 中 ，RecordReader 为 
LineRecordReader (位 于 InputTextlnputFormat 中 ， 按 行 读 取 数 据 ， 行 所 在 的 偏 移 量 为 key， 行 中 的 字符 串 为 value) ，Partitioner 为 PipesPartitioner，RecordWriter 为 LineRecordWriter (位 于 
InputTextOutputFormat 中 ， 输 出 格式 为 “key\tvalue\n”) 。 


wordcount-part.cc，Mapper、Partitioner 和 Reducer 组 件 采用 C+ + 语言 编写 ， 其 他 组 件 采用 Hadoop 的 java 内 置 实现 。 
wordcount-nopipe.cc，RecordReader、Mapper、Reducer 和 RecordWriter 均 采用 C++ 编 写实 现 。 

接 下 来 介绍 最 简单 的 wordcount-simple.cc 的 Pipes 的 C++ 实 现 。 

(1) Map 实 现 


要 实现 WordCountMap 就 需要 继承 HadoopPipes: : Mapper 类 ， 并 实现 Map 国 数 ， 其 代码 如 下 : 


class WordCountMap: public HadoopPipes: :Mapper { 
public: 
HadoopPipes: :TaskContext: :Counter* inputWords; 
void map (HadoopPipes: :MapContext& context) { 
std: :vector<std: :string> words = 
HadoopUtils: :splitSstring (context.getInputValue(), 
for(unsigned int i=0; i < words.size(); ++i) { 
context.emit (words [i], "1"); 
} 
context.incrementCounter (inputWords, words.size()); 
} 
}; 


1 


从 上 述 代码 中 很 容易 可 以 看 出 ，Pipes 接 口 是 比较 类 似 Java API 接 口 的 ， 通 过 MapContext 类 中 的 方法 getInputValue() 获 取 value， 就 是 每 一 行 的 值 ， 处 理 之 后 通过 MapContext 类 中 的 emit 方 法 输出 ， 
这 个 输出 也 就 是 下 一 阶段 Reduce 的 输入 。 


(2) Redcue 实 现 


要 实现 WordCountReduce 类 ， 就 需要 继承 HadoopPipes: : Reducer 类 ， 并 实现 Reduce 函 数 ， 代 码 如 下 : 


class WordCountReduce: public HadoopPipes: :Reducer { 
public: 
HadoopPipes: :TaskContext: :Counter* outputWords; 
void reduce (HadoopPipes: :ReduceContext& context) { 
int sum = 0; 
while (context .nextValue()) { 
sum += HadoopUtils: :toInt (Context .getInputValue () ) ， 


Context .emit (Context .getInputKey(), HadoopUtils toString(sum) ) 
Context .incrementCounter (outputWords, 1); 


从 WordCountReduce 类 的 实现 中 可 以 看 出 ，Reduce 通 过 ReduceContext 类 中 的 方法 nextValue( 来 获取 当前 key 的 下 一 个 值 value， 然 后 对 其 值 相 加 ， 最 后 通过 emit 方 法 提交 键 值 对 作为 Redcue 的 最 


终 输出 。 
(3) main 国 数 


Map 和 Reduce 实 现 之 后 ， 还 需要 一 个 main 函 数 来 驱动 ， 需 要 调用 HadoopPipes: : runTask 函 数 来 驱动 ， 代 码 如 下 : 


int main(int argc char *argv[]) { 
return HadoopPipes: :runTask (HadoopPipes: :TemplateFactory<WordCountMap, 
WordCountReduce> () ) ; 


从 main 函 数 中 可 以 看 到 ，HadoopPipes: : runTask 函 数 有 两 个 参数 ， 分 别 就 是 Map 和 Reduce 类 。 


2.4 ”编译 


上 一 节 分 别 使 用 Java APl、Streaming 接 口 及 Pipes 接 口 实现 了 词 频 统计 的 MapReduce 程 序 ， 接 下 来 就 要 介绍 如 何 编译 了 。 下 面 分 别 讲述 三 种 接口 实现 的 MapReduce 程 序 的 编译 方法 。 


2.4.1 基于 Java API 实现 的 编译 
如 果 用 户 使 用 Eclipse 开发 ， 则 需要 导入 hadoop-core-x.y.xjjar 核 心包 ， 由 于 Eclipse 会 自动 编译 ， 则 直接 使 用 export 功 能 导出 词 频 统计 的 jar 包 即 可 ; 如 果 使 用 Linux 中 的 vim 开 发 ， 则 应 使 用 下 面 的 方法 
进行 编译 并 打包 。 


在 上 节 Java 实 现 中 有 三 个 类 : WordcountMapperjava、WordcountReducer.java、MyWordCount.java， 用 户 的 当前 工作 目录 只 有 这 三 个 Java 文 件 ， 则 编译 脚本 如 下 : 
#!/bin/bash 


# 编 译 并 打包 单词 统计 MapReduce 程 序 
HADOOP VERSION=1.0.4 


HADOOP HOME=/home/nuoline/Hadoop-$HADOOP VERSION 
LIB=$ {HADOOP HOME}/Hadoop-core-$ {HADOOP VERSION} .jar 
mkdir wordcount 

javac -cp SLIB -d wordcount *.java 

jar -cvf /usr/nuoline/wordcount.jar -C wordcount/ 


在 该 脚本 中 的 HADOOP_HOME 是 Hadoop 的 安装 目录 ，LIB 是 词 频 统 计 的 依赖 库 ， 只 需要 Hadoop-core-$fHADOOP_VERSION}.jar 核 心包 就 可 以 。 执 行 上 述 脚 本 就 可 以 编译 并 打包 词 频 统计 程序 。 


2.4.2 ”基于 Streaming 实 现 的 编译 


在 Streaming 接 口 实现 的 程序 中 ， 用 户 的 Map 和 Reduce 都 是 单独 的 可 执行 程序 ， 在 上 节 实 现 中 是 使 用 C++ 实 现 的 ， 包 括 Map 程 序 WordcountMap.cpp，Reduce 程 序 WordcountReduce.cpp。 由 于 
写 Streaming 程 序 不 依赖 于 Hadoop 的 类 库 ， 因 此 可 以 像 一 般 的 C++ 程序 一 样 进行 编译 ， 例 如 这 里 使 用 make 进 行 编译 ，Makefile 内 容 如 下 : 


CXX = g++ 
CXXFLAGS = -9 -Wall -02 
sMap = WordcountMap .cpp 
Reduce = WordcountReduce.cpp 
Map = $ (basename $ (sMap)) 
Reduce = $ (basename $ (sReduce)) 
.PHONY : all 
all : $(tMap) $ (tReduce) 
WordcountMap : WordcountMap.o 
$ (CXX) $< -oO $@ 
WordcountReduce : WordcountReduce.o 
$ (CXX) $< -Oo $@ 
.0 : $$.CPPp 
$ (CXX) -C $< -oOo $@ $ (CXXFLAGS) 
PHONY : clean 
clean : 
-rm -rf $ (tMap) $ (tReduce) *.o 


(十 (十 Cn 


编写 完 Makefile 之 后 直接 使 用 make 就 可 以 进行 编译 了 ， 这 和 一 般 的 C++ 程序 的 编译 没有 任何 区 别 。 


2.4.3 ”基于 Pipes 实 现 的 编译 


在 使 用 Pipes 编 写 MapReduce 程 序 时 是 需要 依赖 于 Hadooppipes 和 Hadooputils 静 态 库 的 ， 因 此 建议 用 户 在 使 用 Pipes 接 口 时 针对 自己 的 运行 环境 重新 编译 这 两 个 库 ， 重 新 编译 Pipes 库 很 简单 ， 编 译 命 
令 如 下 : 


#!/bin/bash 

cd SHADOOP HOME/src/ct+tt+ 
cd pipes & ./configure & make install 
cd utils & ./configure & make install 


然后 将 生成 的 libHadooputils.a 和 libHadooppipes.a 替 换 之 前 的 原文 件 即 可 ， 下 面 就 是 编译 Pipes 实 现 的 单词 统计 程序 了 。 


编译 可 以 使 用 ant 命 令 完 成 ， 首 先进 入 Hadoop 的 安装 目录 ， 然 后 执行 以 下 命令 : 


ant -Dcompile.ct++=yes examples 


这 样 wordcount-simple.cc 生 成 的 可 执行 文件 wordcount-simple 被 保存 到 了 目录 build/c+ + -examples 下 的 Linux-amd64-64 和 Linux-i386-32 的 bin 目 录 下 ， 至 此 编译 完成 。 


2.5 提交 作业 


上 节 讲 述 了 词 频 统计 程序 的 编译 ， 本 节 将 描述 Hadoop 的 Java API、streaming 接 口 ， 以 及 如 何 将 Pipes 接 口 实现 的 词 频 统计 程序 提交 到 Hadoop 集 群 运行 。 


2.5.1 基于 Java API 实 现 作 业 提 交 


在 2.4.1 中 讲 到 Java 接 口 的 词 频 统计 程序 在 编译 时 需要 打包 为 wordcount.jar 包 文件 ， 现 在 使 用 Hadoop 的 提交 命令 就 可 以 将 在 本 地 编译 并 打包 好 的 程序 提交 到 Hadoop 集 群 运行 ， 提 交 的 脚本 命令 如 下 : 


#!/bin/bash 


# 提 交 运 行 脚本 

HADOOP VERSION=1.0.4 

jar path = /usr/nuoline/wordcount/wordcount .jar # 用 户 程 序 所 在 目录 
HADOOP HOME=/home/nuoline/Hadoop-$HADOOP VERSION 
input=/usr/nuoline/wordcount/input #HDFS 中 的 输入 路 径 
output=/usr/nuoline/wordcount/output # 是 HDFS 中 的 输出 路 径 
$HADOOP HOME/bin/Hadoop jar $jar path MyWordCount $input $output 


在 提交 的 脚本 中 至 少 需要 指定 HADOOP_HOME 环 境 变量 ， 同 时 还 需要 指定 编译 打包 好 的 jar 文 件 目录 ， 执 行 命令 后 先 根据 HADOOP_HOME 得 到 conf 目 录 的 配置 文件 ， 再 确定 提交 集群 的 属性 参数 。 


2.5.2 ”基于 Streaming 实 现 作业 提交 


通过 执行 2.4.2 中 Streaming 方 式 的 编译 命令 后 ， 会 得 到 可 执行 程序 WordcountMap 和 WordcountReduce， 分 别 为 词 频 统计 的 Map 和 Reduce， 然 后 就 可 以 使 用 Hadoop Streaming 命 令 来 实现 作业 提 
交 。 提 交 运 行 脚本 的 命令 如 下 : 


» 
yy/ 
oo 


#!/bin/bash 

# 提 交 运 行 脚本 

HADOOP VERSION=1.0.4 
Work path=/home/nuoline/swordcount # 用 户 程 序 所 在 目录 
HADOOP HOME=/home/nuoline/Hadoop-$HADOOP VERSION 
streaming=$HADOOP HOME/contripb/streaming/Hadoop-streaming-$HADOOP VERSION.jar 
SHADOOP HOME/bin/Hadoop jar $streaming \ 


file S$Work path/WordcountMap \\ 
mapper WordcountMap \ 
file SNWork path/WordcountReduce \ 
-reducer WordcountReduce \ 
-input /usr/nuoline/wordcount/sinput \ 

-output /usr/nuoline/wordcount/soutput \ 
-numReduceTasks 1 \ 
-jobconf MapRed.Jjob.name="MyWordcount" 


在 上 述 提交 运行 脚本 的 命令 中 需要 指定 HADOOP_HOME 环 境 变 量 。Streaming 命 令 中 最 基本 的 参数 说 明 如 表 2-1 所 示 。 
表 2-1 词 频 统计 Streaming 提 交 参 数 说 明 
参 数 名 描 述 
file 分 发 本 地 文 


mapper mapper 可 执行 程 厅 或 Java 类 
reducer reducer 可 执行 程序 或 Java 类 
input 输入 数据 的 HDFS 路 径 
output 输出 数据 的 HDFS 路 径 
numReduceTasks Reduce 的 任务 个 妆 


Streaming 用 户 非常 灵活 ， 用 户 在 提交 作业 到 Hadoop 集 群 之 前 最 好 能 在 本 地 测试 一 下 。 本 地 测试 可 以 使 用 Linux 命 令 来 模拟 Hadoop 处 理 流程 ， 命 令 如 下 : 


cat input.txt / WordcountMap / sort / WordcountReduce > output.txt 


input.txt 是 词 频 统计 的 测试 用 例 ，output.txt 是 输出 ， 需 要 注意 的 是 Map 之 后 需要 sort 命 令 ， 这 是 因为 在 Hadoop 中 Map 处 理 完 之 后 会 依据 键 key 进 行 排序 ， 如 果 程 序 在 本 地 测试 正常 ， 就 可 以 安全 地 将 
其 提交 到 Hadoop 上 运行 。Streaming 本 身 还 有 很 多 用 法 ， 更 详细 的 内 容 将 在 后 续 章节 进行 详细 介绍 。 


2.5.3 ”基于 Pipes 实 现 作业 提交 


在 提交 Hadoop Pipes 作 业 之 前 首先 需要 将 编译 好 的 Pipes 可 执行 程序 上 传 到 HDFS 上 。 例 如 ,我 们 将 编译 好 的 词 频 统计 程序 wordcount-simple 上 传 到 HDFS 上 的 /user/nuoline/wordcount/bin 目 录 
下 ， 如 果 wordcount-simple 可 执行 程序 就 在 当前 目录 下 ， 则 使 用 以 下 命令 : 


Hadoop fs -put wordcount-simple /user/nuoline/wordcount/bin 


然后 使 用 Hadoop Pipes 命 令 提交 作业 到 Hadoop 集 群 ， 提 交 命 令 如 下 : 


Hadoop pipes \ 

-D Hadoop.pipes.java.recordreader=true \ 
-D Hadoop.pipes.java.recordwriter=true \ 
-D MapRed.job.name= wordcount \ 
-input /user/nuoline/wordcount/test input \ 
-output /user/nuoline/wordcount /test output \ 
-program /user/nuoline/wordcount/bin/wordcount-simple 


Hadoop Pipes 命 令 的 参数 说 明 ， 如 表 2-2 所 示 。 


表 2-2 ”Hadoop Pipes 命 令 的 参数 说 明 


参 数 名 描 述 


D 指定 Hadoop 属性 相关 参数 
hadoop.pipes.java.recordreader 使 用 Hadoop 内 置 的 Java 实现 RecordReader 
hadoop.pipes.java.recordwriter 使 用 Hadoop 内 置 的 Java 实现 RecoerdWriter 
input 输入 数据 的 HDFS 路 径 ， 词 频 统计 的 文本 集 
output 输出 数据 的 HDFS 路 径 ， 词 频 统 计 纺 条 
program 用 户 pipes 可 执行 程 夺 的 HDFS 路 径 


当然 ， 如 果 用 户 需要 自 定义 的 Hadoop 参 数 很 多 ， 还 可 以 直接 写成 xml 格 式 的 配置 文件 ， 然 后 通过 conf 参 数 选项 进行 指定 。 例 如 可 以 在 本 地 当前 目录 下 建立 一 个 wordcount_conf.xm| 文 件 ， 在 此 文件 中 
指定 相关 Hadoop 参 数 ， 执 行 代 码 如 下 : 


<?xml] version="] .0"?> 
<configuration> 
<property> 
// Set the binary path on HDFS 
<name>Hadoop .pipes .executable</name> 
<value>/user/nuoline/wordcount/bin/wordcount-simple</value> 
</property> 
<property> 
<name>Hadoop .pipes.java.recordreader</name> 


<value>true</value> 
</property> 
<property> 
<name>Hadoop .pipes.java.recordwriter</name> 
<value>true</value> 
</property> 
</configuration> 


然后 通过 Pipes 命 令 的 conf 参 数 指定 这 个 配置 文件 一 起 提交 作业 ， 执 行 命令 如 下 : 


hadoop pipes \ 

-Conf /wordcount conf.xml 

-input /user/nuoline/wordcount/test input 
-output /user/nuoline/wordcount /test output 


2.6 人 小结 


本 章 主 要 介绍 了 如 何 使 用 Hadoop 进 行 词 频 统 计 的 简单 应 用 ， 为 了 能 够 使 用 Hadoop， 首 先 要 搭建 一 个 伪 分 布 式 模式 的 Hadoop 测 试 环境 ， 然 后 从 词 频 统计 的 MapReduce 算 法 设计 讲 起 ， 接 着 分 别 使 用 
Hadoop Java API、Hadoop Streaming 接 口 以 及 Hadoop Pipes， 描 述 了 如 何 实现 、 编 译 及 提交 作业 词 频 统 计 作业 。 通 过 对 本 章 的 学 习 ， 读 者 可 以 对 Hadoop 的 使 用 有 一 个 基本 的 应 用 体验 。 


第 3 章 ”Hadoop 和 存储 系统 


通过 对 前 两 章 内 容 的 学 习 我 们 已 经 了 解 到 ，Hadoop 本 身 就 是 一 个 分 布 式 系 统 ， 其 包括 两 大 核心 内 容 ， 一 个 是 并 行 计算 框架 MapReduce， 另 一 个 就 是 分 布 式 存储 系统 HDFS 了 。 从 分 布 式 系统 理论 的 角 
度 考虑 ， 一 般 的 分 布 式 系统 需要 考虑 的 核心 问题 包括 : 数据 分 块 、 元 数据 管理 、 高 可 靠 性 、 高 可 用 性 、 高 可 扩展 性 、 容 错 控 制 、 高 吞吐 量 以 及 高 传输 等 问题 ， 从 架构 上 来 讲 主流 模型 是 P2P 模 型 和 主 从 结构 
模型 ， 对 外 来 讲 只 需要 暴露 一 个 统一 的 访问 接口 、 对 用 户 透 明 ， 而 且 要 保证 用 户 数据 的 一 致 性 。 


而 Hadoop 的 存储 系统 HDFS 就 是 这 样 一 个 分 布 式 的 文件 系统 ， 是 Google 的 GFS (Google File System) 的 开源 实现 ， 是 一 个 典型 的 主 从 架构 模型 系统 ， 也 是 管理 大 型 分 布 式 数 据 密集 型 计算 的 可 扩展 
的 分 布 式 文件 系统 。HDFS 使 用 廉价 的 商用 硬件 搭建 系统 并 向 大 量 用 户 提供 可 容错 的 高 性 能 服务 ， 并 能 提供 高 吞吐 量 的 数据 访问 ， 非 常 适 合 在 大 规模 的 数据 集 上 应 用 ， 其 放宽 了 一 部 分 POSIX 约 束 ， 来 实现 流 
式 读 取 文 件 系统 数据 的 目的 。Hadoop 分 布 式 文件 系统 是 由 一 个 Master 和 大 量 块 服务 器 Slaver 构 成 的 。Master 可 存放 文件 系统 的 所 有 元 数据 ， 包 括 名 称 空间 、 访 问 控制 、 文 件 分 块 信息 、 文 件 块 的 位 置信 息 
等 。HDFs 中 的 文件 默认 切 分 为 64MB 的 块 进行 存储 。 为 了 保证 高 可 靠 性 和 高 可 用 性 ， 采 用 元 余 存 储 机 制 的 方式 来 保存 数据 ， 每 份 数据 在 系统 中 至 少 保存 3 个 以 上 的 备份 。 为 了 保证 数据 的 一 致 性 ， 对 于 数据 
的 修改 需要 在 所 有 的 备份 中 进行 ， 并 用 版 本 号 的 方式 来 确保 所 有 备份 处 于 一 致 的 状态 。HDFS 就 像 Hadoop 的 基石 一 般 ， 为 分 布 式 计算 框架 MapReduce 提 供 底层 的 分 布 式 人 存储 支撑 。 


本 章 将 从 Hadoop 分 布 式 文件 系统 HDFs 的 基本 概念 讲 起 ， 然 后 描述 其 特征 、 架 构 设计 及 核心 功能 设计 等 内 容 ， 让 读者 在 学 习 本 章 的 内 容 后 能 对 Hadoop 的 存储 系统 有 一 个 系统 的 认识 和 理解 。 


3.1 基本 概念 
在 学 习 HDFS 之 前 首先 需要 了 解 一 些 最 基础 的 相关 概念 ， 本 节 将 介绍 HDFS 中 涉及 的 基本 概念 。 
3.1.1 NameNode 


HDFS 采 用 Master/Slave 架 构 。NameNode 就 是 HDFS 的 Master 架 构 。HDFS 系 统 包括 一 个 NameNode 组 件 ， 主 要 负责 HDFS 文 件 系 统 的 管理 工作 ， 具 体 包括 名 称 空间 (namespace) 管理 , 文件 
Block 管 理 。NameNode 提 供 的 是 始终 被 动 接收 服务 的 server， 主 要 有 三 类 协议 接口 : 


.ClientProtocol 接 口 ， 提 供给 客户 端 ， 用 于 访问 NameNode。 它 包含 了 文件 的 HDFS 功 能 。 和 GFS 一 样 ，HDFS 不 提供 POSIX 形 式 的 接口 ， 而 使 用 了 一 个 私有 接口 。 


‘DataNodeProtocol 接 口 ， 用 于 DataNode 向 NameNode 通 信 。 


‘NameNodeProtocol 接 口 ， 用 于 从 NameNode 到 NameNogde 的 通信 。 


在 HDFS 内 部 ， 一 个 文件 被 分 成 一 个 或 多 个 Block， 这 些 Block 存 储 在 DataNode 和 集合 里 ，NameNode 就 负责 管理 文件 Block 的 所 有 元 数据 信息 ， 这 些 元 数据 信息 主要 为 : 


文件 名 -数据 块 “ 映 射 
数据 块 >DataNode 列 表 “ 映 射 


其 中 ，“ 文 件 名 一 数据 块 ” 保 存在 磁盘 上 进行 持久 化 人 存储， 需要 注意 的 是 NameNode 上 不 保存 “数据 块 一 DataNode 列 表 ” 上 映射， 该 列表 是 通过 DataNode 上 报 给 NameNode 建 立 起 来 的 。 
NameNode 执 行文 件 系统 的 名 称 空 间 (namespace) 操作 ， 例 如 打开 、 关 闭 、 重 命名 文件 和 目录 ， 同 时 决定 文件 数据 块 到 具体 DataNode 节 点 的 映射 。 


和 NameNode 最 相关 的 还 有 一 个 概念 就 是 gecondary NameNode， 其 主要 是 定时 对 NameNode 的 数据 snapshots 进 行 备 份 ， 这 样 可 尽量 降低 NameNode 朋 省 之 后 导致 数据 丢失 的 风险 ， 其 所 做 的 工 
作 就 是 从 NameNode 获 得 fsimage 和 edits 后 把 两 者 重新 合并 发 给 NameNode， 这 样 ， 既 能 减轻 NameNode 的 负担 又 能 安全 地 备份 ， 一 旦 HDFS 的 Master 架 构 失 效 ， 就 可 以 借助 Secondary NameNode 进 
行 数据 恢复 。 


3.1.2 DateNode 


从 上 一 节 可 知 ，HDFS 的 管理 节点 是 NameNode， 用 于 存储 并 管理 元 数据 。 那 么 具体 的 文件 数据 存储 在 哪里 呢 ? DataNode 就 是 负责 存储 数据 的 组 件 ， 一 个 数据 块 Block 会 在 多 个 DataNode 中 进行 元 余 
备份 ; 而 一 个 DataNode 对 于 一 个 块 最 多 只 包含 一 个 备份 。 所 以 可 以 简单 地 认为 DataNode 上 存储 了 数据 块 ID 和 数据 块 内 容 ， 以 及 它们 的 映射 关系 。 一 个 HDFS 集 群 可 能 包含 上 干 个 DataNode 节 点 ， 这 些 
DataNode 定 时 和 NameNode 进 行 通信 ， 接 受 NameNode 的 指令 。 为 了 减轻 NameNode 的 负担 ，NameNode 上 并 不 永久 保存 哪个 DataNode 上 有 哪些 数据 块 的 信息 ， 而 是 通过 DataNode 启 动 时 的 上 报 来 
更 新 NameNode 上 的 映射 表 。DataNode 和 NameNode 建 立 连接 后 ， 就 会 不 断 地 和 NameNode 保 持 联系 ， 反 馈 信息 中 也 包含 了 NameNode 对 DataNode 的 一 些 命令 ， 如 删除 数据 库 或 者 把 数据 块 复制 到 
另 一 个 DataNode。 应 该 注意 的 是 : NameNode 不 会 发 起 到 DataNode 的 请 求 ， 在 这 个 通信 过 程 中 ， 它 们 严格 遵从 客户 端 /服务 器 架构 。 


当然 DataNode 也 作为 服务 器 接受 来 自 客户 端的 访问 ， 处 理 数 据 块 读 / 写 请 求 。DataNode 之 间 还 会 相互 通信 ， 执 行 数据 块 复制 任务 ， 同 时 ， 在 客户 端 执 行 写 操作 的 时 候 ，DataNode 之 间 需 要 相互 配 
合 ， 以 保证 写 操作 的 一 致 性 。 


3.1.3 ”客户 端 


访问 HDFS 的 程序 或 HDFS shell 命 令 都 可 以 称 为 HDFS 的 客户 端 (client) ， 在 HDFS 的 客户 端 中 至 少 需要 指定 HDFS 集 群 配置 中 的 NameNode 地 址 以 及 端口 号 信息 ， 或 者 通过 配置 HDFS 的 core-site.Xxml 
配置 文件 来 指定 。 一 般 可 以 把 客户 端 和 HDFS 节 点 服务 器 放 在 同一 台 机 器 上 ， 但 其 前 提 是 机 器 资源 允许 ， 并 且 我 们 能 够 接受 不 可 靠 的 应 用 程序 代码 所 带 来 的 稳定 性 降低 的 风险 。 


3.1.4 块 


块 是 文件 系统 中 的 一 个 很 重要 的 概念 。 在 UNIX/Linux 系 统 中 有 一 个 数据 块 (Data Block) 的 概念 ，Data Block 是 文件 系统 读 写 的 最 小 数据 单元 。 一 般 在 文件 系统 中 数据 块 的 大 小 是 512 字 节 ， 一 个 文件 
所 占 的 大 小 就 是 数据 块 大 小 的 整数 倍 ， 对 于 用 户 来 讲 对 文件 的 访问 / 存 取 都 是 透明 的 ， 同 样 系 统管 理 员 可 以 利用 系统 本 身 的 命令 对 数据 块 进行 相关 操作 。 因 此 单 从 文件 系统 来 讲 ，HDFS 也 有 一 个 块 (Block) 
的 概念 ， 不 同 之 处 在 于 HDFS 为 了 满足 大 数据 的 效率 和 整个 集群 的 吞吐 量 选择 了 更 大 的 数值 ， 默 认为 64MB。 和 一 般 的 文件 系统 不 同 的 是 : 虽然 块 设置 得 比较 大 ， 但 是 当 一 个 文件 的 大 小 小 于 HDFS 的 块 大 小 
时 ， 实 际 存储 所 占 的 大 小 并 不 占用 一 个 块 的 大 小 。 


客户 端 在 读 取 HDFS 上 的 一 个 文件 时 就 以 块 为 基本 的 数据 单元 。 例 如 一 次 简单 读 取 ， 首 先 ， 客 户 端 把 文件 名 和 程序 指定 的 字 节 偏 移 ， 根 据 固定 的 Block 大 小 ， 转 换 成 文件 的 Block 索 引 。 然 后 ， 客 户 端 把 
文件 名 和 Block 索 引发 送 给 Master 节 点 ，Master 节 点 将 相应 的 Block 标 识 和 副本 的 位 置信 息 返 回 给 客户 端 ， 客 户 端 用 文件 名 和 Block 索 引 作为 key 缓 存 这 些 信息 ， 之 后 客户 端 发 送 请 求 到 其 中 的 一 个 副本 ， 一 
般 会 选择 最 近 的 。 请 求 信 息 包含 了 Block 的 标识 和 字 节 范围 。 在 对 这 个 Block 的 后 续 读 取 操 作 中 ， 客 户 端 不 必 再 和 Master 节 点 通信 了 ， 除 非 缓存 的 元 数据 信息 过 期 或 文件 被 重新 打开 。 实 际 上 ， 客 户 端 通常 会 
在 一 次 请 求 中 查询 多 个 Block 信 息 ，Master 节 点 的 回应 也 可 能 包含 了 紧 跟 着 这 些 被 请 求 的 Block 后 面 的 Block 的 信息 。 在 实际 应 用 中 ， 这 些 额外 的 信息 在 不 花费 任何 代价 的 情况 下 ， 避 免 了 客户 端 和 Master 节 
点 未 来 可 能 会 发 生 的 几 次 通信 。 


3.2 ”HDFS 的 特性 和 目标 


3.2.1 ”HDFS 的 特性 


HDFS 和 传统 的 分 布 式 文件 系统 相 比 较 ， 上 有 具 有 以 下 明显 的 特性 : 


:高度 容 错 ， 可 扩展 性 及 可 配置 性 强 。 由 于 容错 性 高 ， 因 此 非常 适合 部 署 利用 通用 的 硬件 平台 构建 容错 性 很 高 的 分 布 式 系统 。 容 易 扩展 是 指 扩展 无 须 改变 架构 只 需要 增加 节点 即 可 ， 同 时 可 配置 性 很 强 。 
` 跨 平台 。 使 用 Java 语 言 开发 ， 文 持 多 个 主流 平台 环境 。 

“shell 命 令 接口 。 和 Linux 文 件 系统 一 样 ， 拥 有 文件 系统 shell 命 令 ， 可 直接 操作 HDFS。 

:Web 界面 。NameNode 和 DataNode 有 内 置 的 Web 服 务 器 ， 方 便 用 户 检 查 集群 的 当前 状态 。 

:文件 权限 和 授权 。 拥 有 和 Linux 系 统 类 似 的 文件 权限 管理 。 

-机 架 感 知 功 能 。 在 调度 任务 和 分 配 存储 空间 时 系统 会 考虑 节点 的 物理 位 置 ， 从 而 实现 高 效 访问 和 计算 。 

安全 模式 。 一 种 维护 需要 的 管理 模式 。 

:Rebalancer。 当 DataNode 之 间 数 据 不 均衡 时 ， 可 以 平衡 集群 上 的 数据 负载 ， 实 现 数据 负载 均衡 。 

:升级 和 回 深 。 在 软件 更 新 后 有 异常 发 生 的 情形 下 ， 能 够 回 深 到 HDFS 升 级 之 前 的 状态 。 


3.2.2 ”HDFS 的 目标 


HDFS 作 为 Hadoop 的 分 布 式 文件 存储 系统 和 传统 的 分 布 式 文件 系统 有 很 多 相同 的 设计 目标 。 例 如 ， 在 可 伸缩 性 及 可 用 性 上 。 但 是 HDFS 的 设计 前 提 是 假设 和 较 早 的 文件 系统 有 着 明显 的 不 同 之 处 。 下 面 
简 述 HDFS 的 设计 思路 和 目标 。 


1. 硬 件 错误 


硬件 组 件 错误 是 常态 ， 而 非 异 常情 况 。HDFS 可 能 由 成 百 上 干 的 服务 器 组 成 ， 每 一 个 服务 器 都 是 廉价 通用 的 普通 硬件 ， 任 何 一 个 组 件 都 有 可 能 一 直 失 效 ， 因 此 错 误 检测 和 快速 、 自 动 恢复 是 HDFS 的 核心 
架构 目标 ， 同 时 能 够 通过 自身 持续 的 状态 监控 快速 检测 元 余 并 回复 失效 的 组 件 。 


2. 流 式 数 据 访问 


运行 在 HDFS 上 的 应 用 和 普通 的 应 用 不 同 ， 需 要 流 式 访问 它们 的 数据 集 。HDFS 的 设计 中 更 多 考虑 到 了 数据 批 处 理 ， 而 不 是 用 户 交 互 处 理 。 相 比 数 据 访 问 的 低 延 迟 ，HDFS 应 用 要 求 能 够 高 速率 、 大 批量 
地 处 理 数据 ， 极 少 有 程序 对 单一 的 读 写 操作 有 严格 的 响应 时 间 要 求 ， 更 关键 的 问题 在 于 数据 访问 的 高 吞吐 量 。POSIX 标 准 设置 的 很 多 硬性 约束 对 HDFS 应 用 系统 不 是 必需 的 。 为 了 提高 数据 的 吞吐 量 ,， 在 一 些 
关键 方面 对 POSIX 的 语义 做 了 一 些 修改 。 


3. 大 规模 数据 集 


运行 在 HDFS 上 的 应 用 具有 很 大 的 数据 集 。HDFS 上 的 一 个 典型 文件 ， 大 小 一 般 都 在 GB 至 TB。 因 此 ， 需 要 调节 HDFS 以 支持 大 文件 存储 。HDFS 应 该 能 提供 整体 较 高 的 数据 传输 带 完 ， 能 在 一 个 集群 里 扩 
展 到 数 百 个 节点 。 一 个 单一 的 HDFS 实 例 应 该 能 支撑 干 万 计 的 文件 。 


4. 简 化 一 致 性 模型 


HDFs 应 用 需要 一 个 “一 次 写 入 多 次 读 取 ” 的 文件 访问 模型 。 一 个 文件 经 过 创建 、 写 入 和 关闭 之 后 就 不 需要 改变 了 。 这 一 假设 简化 了 数据 一 致 性 问题 ， 并 且 使 高 吞吐 量 的 数据 访问 成 为 可 能 。 
MapReduce 应 用 或 网 络 怜 虫 应 用 都 非常 适合 这 个 模型 。 目 前 还 有 计划 在 将 来 扩充 这 个 模型 ， 使 之 支持 文件 的 附加 写 操作 。 


5. 移 动 计算 代价 比 移动 数据 代价 低 
一 个 应 用 请 求 的 计算 ， 离 它 操作 的 数据 越 近 就 越 高 效 ， 这 在 数据 达到 海量 级 别 的 时 候 更 是 如 此 。 将 计算 移动 到 数据 附近 ， 比 之 将 数据 移动 到 应 用 所 在 之 处 显然 更 好 ，HDFs 提 供给 应 用 这 样 的 接口 。 
6. 可 移植 性 


HDFS 在 设计 时 就 考虑 到 平台 的 可 移植 性 ， 这 种 特性 方便 了 HDFS 作 为 大 规模 数据 应 用 平台 的 推广 。 


3.3 ”HDFS 架 构 


前 两 节 介 绍 了 HDFS 的 基本 概念 、 特 性 以 及 设计 目标 。 从 组 织 结构 上 来 讲 ，HDFS 最 重要 的 两 个 组 件 为 : 作为 Master 的 NameNode 和 作为 Slave 的 DataNode。NameNode 负 责 管理 文件 系统 的 命名 空 
间 和 客户 端 对 文件 的 访问 ; DataNode 是 数据 存储 节点 ， 所 有 的 这 些 机 器 通常 都 是 普通 的 运行 Linux 的 机 器 ， 运 行 着 用 户 级 别 的 服务 进程 。 客 户 端 可 以 和 NameNode 或 DataNode 在 同一 台 服 务 器 上 ， 前 提 
是 机 器 资源 允许 ， 并 且 能 够 接受 不 可 靠 的 应 用 程序 代码 带 来 的 稳定 性 降低 风险 。3.3.1 节 将 从 架构 上 揭秘 HDFSs 的 核心 设计 。 


3.3.1 ”Master/Slave 架 构 


相 比 于 基于 P2P 模 型 的 分 布 式 文件 系统 架构 ，HDFS 采 用 的 是 基于 Master/Slave 主 从 架构 的 分 布 式 文件 系统 ， 一 个 HDFS 集 群 包 含 一 个 单独 的 Master 节 点 和 多 个 Slave 节 点 服务 器 ， 这 里 的 一 个 单独 的 
Master 节 点 的 含义 是 HDFS 系 统 中 只 存在 一 个 逻辑 上 的 Master 组 件 。 一 个 逻辑 的 Master 节 点 可 以 包括 两 台 物 理 主机 ， 即 两 人 台 Master 服 务 器 、 多 台 Slave 服 务 器 。 一 台 Master 服 务 器 组 成 单 NameNode 和 集 
群 ， 两 台 Master 服 务 器 组 成 双 NameNode 集 群 ， 并 且 同 时 被 多 个 客户 端 访问 ， 所 有 的 这 些 机 器 通常 都 是 普通 的 Linux 机 器 ， 运 行 着 用 户 级 别 (user-level) 的 服务 进程 。HDFS 架 构 设计 如 图 3-1 所 示 。 


NameNode Metadata (Name, replicas,...): 
“元 数据 操作 本 名 称 方 点 /home/nuol ine/data, 3,... 


DataNode DataNode 
数据 入 点 数据 市 操 


图 3-1 HDFS 架 构 设 计 示 意图 


图 3-1 中 展示 了 HDFS 的 NameNode、DataNode 以 及 客户 端 之 间 的 存 取 访问 关系 ， 单 一 节点 的 NameNode 大 大 简化 了 系统 的 架构 。NameNode 负 责 保存 和 管理 所 有 的 HDFS 元 数据 ， 因 而 用 户 数 据 就 
不 需要 通过 NameNode， 也 就 是 说 文件 数据 的 读 写 是 直接 在 DataNode 上 进行 的 。HDFS 存 储 的 文件 都 被 分 割 成 固定 大 小 的 Block， 在 创建 Block 的 时 候 ，NameNode 服 务 器 会 给 每 个 Block 分 配 一 个 唯一 不 
变 的 Block 标 识 。DataNode 服 务 器 把 Block 以 Linux 文 件 的 形式 保存 在 本 地 硬盘 上 ， 并 且 根 据 指定 的 Block 标 识 和 字 节 范围 来 读 写 块 数据 。 出 于 可 靠 性 的 考虑 ， 每 个 块 都 会 复制 到 多 个 DataNode 服 务 器 上 。 
在 默认 情况 下 ，HDFS 使 用 三 个 元 余 备 份 ， 当 然 用 户 可 以 为 不 同 的 文件 命名 空间 设 定 不 同 的 复制 因子 数 。NameNode 管 理 所 有 的 文件 系统 元 数据 。 这 些 元 数据 包括 名 称 空间 、 访 问 控制 信息 、 文 件 和 Block 
的 映射 信息 ， 以 及 当前 Block 的 位 置信 息 。NameNode 还 管理 着 系统 范围 内 的 活动 ， 比 如 ，Block 租 用 管理 、 孤 立 Block 的 回收 ,以 及 Block 在 DataNode 服 务 器 之 间 的 迁移 。NameNode 使 信息 周期 性 地 和 
每 个 DataNode 服 务 器 通信 ， 发 送 指令 到 各 个 DataNode 服 务 器 并 接收 DataNode 中 Block 的 状态 信息 。 


HDFS 客 户 端 代码 以 库 的 形式 被 链接 到 客户 程序 中 。 在 客户 端 代码 中 需要 实现 HDFS 文 件 系统 的 API 接 口 函数 ， 应 用 程序 与 NameNode 和 DataNode 服 务 器 通信 ， 以 及 对 数据 进行 读 写 操作 。 客 户 端 和 
NameNode 的 通信 只 获取 元 数据 ， 所 有 的 数据 操作 都 是 由 客户 端 直接 和 DataNode 服 务 器 进行 交互 的 。HDFS 不 提供 POSIX 标 准 的 API 功 能 ， 因 此 ，HDFS API 调 用 不 需要 深入 到 Linux vnode 级 别 。 无 论 是 
客户 端 还 是 DataNode 服 务 器 都 不 需要 缓存 文件 数据 。 客 户 端 缓存 数据 几乎 没有 什么 用 处 ， 因 为 大 部 分 程序 要 么 以 流 的 方式 读 取 一 个 巨大 的 文件 ， 要 么 工作 集 太 大 根本 无 法 被 缓存 。 因 此 ， 无 须 考虑 与 缓存 
相关 的 问题 ， 同 时 也 简化 了 客户 端 及 整个 系统 的 设计 和 实现 。 


3.3.2 NameNode 和 Secondary NameNode 通 信 模 型 


NameNode 将 对 文件 系统 的 改动 追加 保存 到 本 地 文件 系统 上 的 一 个 日 志文 件 edits。 当 一 个 NameNode 启 动 时 ， 它 首先 从 一 个 映像 文件 (fsimage) 中 读 取 HDFS 的 状态 ， 接 着 执行 日 志文 件 中 的 编辑 操 
作 。 然 后 将 新 的 HDFS 状 态 写 入 fsimage 中 ， 并 使 用 一 个 空 的 edits 文 件 开始 正 常 操作 。 因 为 NameNode 只 有 在 启动 阶段 才 合 并 fsimage 和 edits， 久 而 久之 日 志文 件 可 能 会 变 得 非常 庞大 ， 特 别 是 对 于 大 型 的 
集群 。 日 志文 件 太 大 的 另 一 个 副作用 是 下 一 次 NameNode 启 动 会 花 很 长 时 间 ，NameNode 和 Secondary NameNode 之 间 的 通信 示意 图 如 图 3-2 所 示 。 
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图 3-2 ”NameNode 和 Secondary NameNode 之 间 的 通信 示意 图 


如 图 3-2 所 示 ，NameNode 和 Secondary NameNode 间 数据 的 通信 使 用 的 是 HTTP 协 议 ，Secondary NameNode 定 期 合并 fsimage 和 edits 日 志 ， 将 edits 日 志文 件 大 小 控制 在 一 个 限度 下 。 因 为 内 存 需 
求 和 NameNode 在 一 个 数量 级 上 ， 所 以 通常 Secondary NameNode 和 NameNode 运 行 在 不 同 的 机 器 上 。Secondary NameNode 通 过 bin/start-dfs.sh 在 conf/masters 中 指定 的 节点 上 启动 。 


Secondary NameNode 的 检查 点 进程 启动 ， 是 由 以 下 两 个 配置 参数 控制 的 : 


fs.checkpoint.perioqd 指 定 连续 两 次 检查 点 的 最 大 时 间 间 隔 ， 默 认 值 是 1 小 时 。 
:fs .checkpoint .size 定 义 了 日 志文 件 的 最 大 值 ， 一 旦 超过 这 个 值 会 导致 强制 执行 检查 点 《即使 没 到 检查 点 的 最 大 时 间 间 隔 ) ， 默 认 值 是 64MB。 


Secondary NameNode 保 存 最 新 检查 点 的 目录 与 NameNode 的 目录 结构 相同 。 所 以 NameNode 可 以 在 需要 的 时 候 读 取 Secondary NameNode 上 的 检查 点 镜像 。 
如 果 NameNode 上 除了 最 新 的 检查 点 以 外 ， 所 有 的 其 他 历史 镜像 和 edits 文 件 都 丢失 了 ，NameNode 可 以 引入 这 个 最 新 的 检查 点 。 以 下 操作 可 以 实现 这 个 功能 : 
1) 在 配置 参数 dfs.name.dir 指 定 的 位 置 建立 一 个 空 文件 夹 。 

2) 把 检查 点 目录 的 位 置 赋值 给 配置 参数 fs.checkpoint.dir。 

3) 启动 NameNode, 加 上 -importCheckpoint。 


NameNode 会 从 fs.checkpoint.dir 目 录 读 取 检 查 点 ， 并 把 它 保存 在 dfs.name.dir 目 录 下 。 如 果 dfs.name.dir 目 录 下 有 合法 的 镜像 文件 ，NameNode 会 启动 失败 。NameNode 会 检查 fs.checkpoint.dir 
目录 下 镜像 文件 的 一 致 性 ， 但 是 不 会 去 改动 它 。 


3.3.3 ”文件 存 取 机 制 
一 个 分 布 式 文件 系统 最 基本 的 功能 就 是 读 和 写 ， 本 节 将 描述 HDFS 的 文件 存 取 机 制 |。 


1.HDFS 读 文件 数据 流 


在 读 取 HDFS 的 文件 时 ， 首 先 客户 端 调用 FileSystem 的 open() 函 数 打开 文件 ，DistributedFileSystem 用 RPC 调 用 元 数据 节点 ， 得 到 文件 的 数据 块 信息 。 对 于 每 一 个 数据 块 ， 元 数据 节点 返回 保存 数据 块 
的 数据 节点 的 地 址 。DistributedFileSystem 返 回 FSDatalnputStream 给 客户 端 ， 用 来 读 取 数据 。 客 户 端 调用 stream 的 read0 函 数 开始 读 取 数据 。DFSInputStream 连 接 保存 此 文件 第 一 个 数据 块 的 最 近 的 数 
据 节 点 。Data 从 数据 节点 读 到 客户 端 ， 当 此 数据 块 读 取 完毕 时 ，DFSInputStream 关 闭 和 此 数据 节点 的 连接 ， 然 后 连接 此 文件 下 一 个 数据 块 的 最 近 的 数据 节点 。 当 客户 端 读 取 完 数 据 的 时 候 ， 调 用 
FSDatalnputstream 的 close 函 数 。 客 户 端 读 取 HDFS 中 的 文件 访问 数据 流 的 整个 过 程 如 图 3-3 所 示 。 


图 3-3 中 的 操作 序号 1、2、3、4、5 表 示 执 行 顺序 ， 读 取 文 件 的 数据 流 步 骤 如 下 : 


1) 调用 FileSystem 的 open0 打 开 文 件 ， 见 序号 1: open。 


2) DistributedFileSystem 使 用 RPC 调 用 NameNode， 得 到 文件 的 数据 块 元 数据 信息 ， 并 返回 FSDatalnputStream 给 客户 端 ， 见 序号 2: get block locations。 
3) HDFS 客 户 端 调用 stream 的 read() 冰 数 开始 读 取 数 据 ， 见 序号 3: read。 
4) 调用 FSDatalnputStream 和 直接 从 DataNode 获 取 文 件数 据 块 ， 见 序号 4、5: read。 


5) 读 完 文件 时 ， 调 用 FSDatalnputStream 的 close 函 数 ， 见 序号 6: close。 
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图 3-3 HDFS 中 读 文 件数 据 流 的 过 程 
2.HDFS 写 文件 数据 流 


HDFSs 的 写 文 件数 据 操 作 ， 比 读 文件 数据 复杂 一 些 。 读 文件 数据 的 时 候 ， 只 需要 在 多 个 数据 块 文件 中 选 一 个 读 就 可 以 了 ， 但 是 ， 写 文件 数据 需要 同时 写 到 多 个 数据 块 文件 中 ， 这 就 相对 比较 复杂 了 。 
HDFS 的 写 机 制 可 以 通过 图 3-4 进 行 简 单 描述 。 


DataNode3 


图 3-4 HDFS 写 文件 机 制 


如 图 3-4 所 描述 ， 数 据 流 从 客户 端 开始 ， 流 经 一 系列 的 数据 节点 ， 到 达 最 后 一 个 DataNode。 图 3-4 中 的 所 有 DataNode 只 需要 写 一 次 硬盘 ，DataNode1 和 DataNode2 会 从 socket 上 接收 到 数据 ， 将 它 
直接 写 到 下 个 节点 的 socket 上 。 需 要 注意 的 是 ， 如 果 当前 DataNode 处 于 数据 流 的 中 间 ， 那 么 该 数据 包 会 被 发 送 到 下 一 个 节点 。 接 下 来 就 是 处 理 数据 和 校 验 ， 并 分 别 将 数据 包 写 到 数据 块 文件 和 数据 块 元 数 
据 文件 中 。 如 果 出 错 ， 抛 出 的 异常 会 导致 receiveBlock 关 闭 相关 的 输出 流 ， 并 终止 传输 。 同 时 ， 数 据 校 验 出 错 还 会 上 报到 NameNode 上 。 


最 后 一 个 DataNode 由 于 没有 后 续 节点 ，PacketResponder 的 ackQueue 每 收 到 一 项 ， 表 明 对 应 的 数据 块 已 经 处 理 完毕 ， 那 么 就 可 以 发 送 成 功 应 答 。 如 果 该 应 答 是 最 后 一 个 包 的 ，PacketResponder 会 
关闭 相关 的 输出 流 并 提交 。 如 果 DataNode 有 后 续 节点 ， 那 么 ， 它 必须 等 到 后 续 节 点 成 功 应 答 才 可 以 发 送 应 答 。 


上 面 描 述 了 HDFS 在 写 文 件数 据 时 的 基本 处 理 机 制 ， 从 客户 端 开 始 ， 直 到 在 HDFS 上 完成 写 一 个 文件 的 整体 数据 流程 图 如 图 3-5 所 示 。 
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图 3-5 ”HDFS 写 文件 数据 流程 图 


第 一 个 数据 节点 。 第 一 个 数据 节点 将 数据 块 发 送 给 第 二 个 数据 节点 ， 第 二 个 数据 节点 将 数据 发 送 给 第 三 个 数据 节点 。DFSOutputStream 为 发 出 去 的 数据 块 保 仓 了 Ack Queue， 等 待 pipeline 中 的 数据 节点 
告知 数据 已 经 写 入 成 功 。 如 果 数 据 节 点 在 写 入 的 过 程 中 失败 ， 则 关闭 pipeline， 同 时 将 Ack Queue 中 的 数据 块 放 入 Data Queue 的 开始 位 置 。 


3.4 ”HDFS 核 心 设计 


3.4.1 Block 大 小 


Block 的 大 小 是 HDFS 关 键 的 设计 参数 之 一 ， 默 认 的 参数 是 64MB， 这 个 尺寸 远 远大 于 一 般 文件 系统 的 Blocksize。 每 个 Block 的 副本 都 以 普通 Linux 文 件 的 形式 保存 在 DataNode 服 务 器 上 ， 只 有 在 需要 的 
时 候 才 扩大 。 惰 性 空间 分 配 策略 避免 了 因 内 部 碎片 造成 的 空间 浪费 ， 选 择 较 大 的 Block 尺 十 有 几 个 优点 ; 首先 ， 它 减少 了 客户 端 和 NameNode 通 信 的 需求 ， 因 为 只 需要 一 次 和 NameNode 节 点 的 通信 就 可 以 
获取 Block 的 位 置信 息 ， 之 后 就 可 以 对 同一 个 Block 进 行 多 次 的 读 写 操作 。 这 种 方式 对 降低 工作 负载 来 说 效果 显著 ， 因 为 应 用 程序 通常 是 连续 读 写 大 文件 ， 即 使 是 小 规模 的 随机 读 取 ， 采 用 较 大 的 Block 尺 二 
也 会 带 来 明显 的 好 处 ， 客 户 端 可 以 轻松 地 缓存 一 个 数 TB 的 工作 数据 集 所 有 的 Block 位 置信 息 。 其 次 ， 采 用 较 大 的 Block 尺 寸 ， 客 户 端 能 够 对 一 个 块 进行 多 次 操作 ， 这 样 就 可 以 通过 与 Block 服 务 器 保持 较 长 时 
间 的 TCP 连 接 来 减少 网 络 负载 。 最 后 ， 选 用 较 大 的 Block 尺 寸 减少 了 NameNode 节 点 需要 保存 的 元 数据 的 数量 ， 从 而 很 容易 把 所 有 元 数据 全 部 放 在 内 存 中 。 


男 一 方面 ， 即 使 结合 惰性 空间 分 配 ， 采 用 较 大 的 Block 尺 寸 也 有 缺陷 。 小 文件 包含 较 少 的 Block， 甚 至 只 有 一 个 Block， 当 有 许多 的 客户 端 对 同一 个 小 文件 进行 多 次 访问 时 ， 存 储 这 些 Block 的 DataNode 
服务 器 就 会 变 成 访问 热点 。 在 实际 应 用 中 ， 由 于 程序 通常 是 连续 地 读 取 包含 多 个 Block 的 大 文件 ， 访 问 热点 还 不 是 主要 的 问题 。 然 而 当 一 个 可 执行 文件 保存 在 HDFS 上 时 或 许 是 一 个 Block 的 文件 ， 当 这 个 可 
执行 文件 在 数 百 台 机 器 上 同时 启动 时 ， 数 百 个 客户 端的 并 发 请 求 访问 会 导致 系统 局 部 过 载 ， 解 决 这 个 问题 可 以 通过 自 定 义 更 大 的 HDFS 复 制 因 子 数 来 保存 可 执行 文件 。 同 样 对 非常 重要 的 数据 或 经 常 频繁 访问 
的 数据 设置 较 高 的 复制 因子 数 对 于 提高 系统 性 能 是 非常 重要 的 。 


3.4.2 ”数据 复制 


HDFS 被 设计 成 在 一 个 大 集群 中 可 以 跨 机 器 可 靠 地 存储 海量 的 文件 。 它 将 每 个 文件 存储 成 Block 序 列 ， 除 了 最 后 一 个 Block， 所 有 的 Block 都 是 同样 的 大 小 。 文 件 的 所 有 Block 为 了 容错 都 会 被 元 余 复 制 存 
储 。 每 个 文件 的 Block 大 小 和 Replication 因 子 都 是 可 配置 的 。Replication 因 子 在 文件 创建 的 时 候 会 默认 读 取 客户 端的 HDFS 配 置 ， 然 后 创建 ， 以 后 也 可 以 改变 。HDFS 中 的 文件 是 write-one， 并 且 严 格 要 求 
在 任何 时 候 只 有 一 个 writer。HDFS 数 据 见 余 复 制 示 意图 如 3-6 图 所 示 。 


从 图 3-6 中 可 以 看 到 ， 文 件 /user/nuoline/data/part-1 的 复制 因子 Replication 值 是 2， 块 的 ID 列 表 包 括 1 和 3， 可 以 看 到 块 1 和 块 3 分别 被 元 余 备 份 了 两 份 数据 块 ， 文 件 /user/nuoline/data/part-2 的 复制 
因子 Replication 值 是 3， 块 的 ID 列 表 包 括 2、4、5， 可 以 看 到 块 2、4、5 分 别 被 宛 余 复 制 了 三 份 。 在 HDFS 中 ， 文 件 所 有 块 的 复制 会 全 权 由 NameNode 进 行 管理 ，NameNode 周 期 性 地 从 集群 中 的 每 个 
DataNode 接 收 心跳 包 和 一 个 Blockreport。 心 跳 包 的 接收 表示 该 DataNode 节 点 正常 工作 ， 而 Blockreport 包 括 了 该 DataNode 上 所 有 的 Block 组 成 的 列表 。 


块 复制 
NameNode (Filename,numReplicas,block-ids,... 
/user/nuoline/data/part-1,r:2,{1,3} 
/userinuoline/data/part-2,7:3,12,4,3! 


3.4.3 ”数据 副本 存放 策略 


副本 的 存放 是 HDFS 可 靠 性 和 高 性 能 的 关键 。 优 化 的 副本 存放 策略 是 HDFS 区 分 于 其 他 大 部 分 分 布 式 文件 系统 的 重要 特性 。 这 种 特性 需要 做 大 量 的 调 优 ， 并 需要 经 验 的 积累 。HDFSs 采 用 一 种 称 为 机 架 感 
知 (rack-aware) 的 策略 来 改进 数据 的 可 靠 性 、 可 用 性 和 网 络 带 宽 的 利用 率 。 目 前 实现 的 副本 存放 策略 只 是 在 这 个 方向 上 的 第 一 步 。 实 现 这 个 策略 的 短期 目标 是 验证 它 在 生产 环境 下 的 有 效 性 ， 观 察 它 的 行 
为 ， 为 实现 更 先进 的 策略 打下 测试 和 研究 的 基础 。 


大 型 HDFS 集 群 系统 往往 运行 在 跨越 多 个 机 架 的 数据 中 心 ， 不 同 机 架 上 的 两 台 机 器 之 间 的 通信 和 需要 经 过 交换 机 。 在 大 多 数 情 况 下 ， 同 一 个 机 架 内 的 两 台 机 器 间 的 带宽 会 比 不 同 机 架 的 两 台 机 器 间 的 带宽 
大 。 


通过 一 个 机 架 感 知 ( 见 3.4.8 节 ) 的 过 程 ，NameNode 可 以 确定 每 个 DataNode 所 属 的 机 架 ID。 一 个 简单 但 没有 优化 的 策略 就 是 将 副本 存放 在 不 同 的 机 架 上 。 这 样 可 以 有 效 防止 当 整 个 机 架 失 效 时 数据 的 
丢失 ， 并 且 人 允许 读数 据 的 时 候 充 分 利用 多 个 机 架 的 带宽 。 这 种 策略 设置 可 以 将 副本 均匀 分 布 在 集群 中 ， 有 利于 组 件 失效 情况 下 的 负载 均衡 。 但 是 ， 因 为 这 种 策略 的 一 个 写 操作 需要 传输 数据 块 到 多 个 机 织 ， 
因此 增加 了 写 的 代价 。 


HDFS 默 认 的 副本 系数 是 3， 这 适用 于 大 多 数 情况 。 副 本 存放 策略 是 将 第 一 个 副本 存放 在 本 地 机 架 的 节点 上 ， 将 第 二 个 副本 放 在 同一 机 架 的 另 一 个 节点 上 ， 将 第 三 个 副本 放 在 不 同 机 架 的 节点 上 。 这 种 策 
略 减少 了 机 织 间 的 数据 传输 ， 这 就 提高 了 写 操作 的 效率 。 机 架 的 错误 远 远 比 节点 的 错误 少 ， 所 以 这 个 策略 不 会 影响 数据 的 可 靠 性 和 可 用 性 。 与 此 同时 ， 因 为 数据 块 只 放 在 两 个 (不 是 3 个 ) 不 同 的 机 架 上 ， 所 
以 此 策略 减少 了 读 取 数据 时 需要 的 网 络 传输 总 带宽 。 在 这 种 策略 下 ， 副 本 并 不 是 均匀 分 布 在 不 同 的 机 架 上 。 三 分 之 一 的 副本 在 一 个 节点 上 ， 三 分 之 一 的 副本 在 同一 个 机 织 的 其 他 节点 上 ， 其 他 副本 均匀 分 布 
在 剩 下 的 机 架 中 ， 这 一 策略 在 不 损害 数据 可 靠 性 和 读 取 性 能 的 情况 下 改进 了 写 的 性 能 。 


为 了 降低 整体 的 带宽 消耗 和 读 取 延 时 ，HDFSs 会 尽量 让 读 取 程 序 读 取 离 它 最 近 的 副本 。 如 果 读 取 程 序 的 同一 个 机 架 上 有 一 个 副本 ， 那 么 就 读 取 该 副本 ; 如 果 一 个 HDFS 集 群 跨越 多 个 数据 中 心 ， 那 么 客户 
端 也 将 首先 读 取 本 地 数据 中 心 的 副本 。 


3.4.4 ”数据 组 织 


1. 数 据 块 


HDFS 最 适合 的 应 用 场景 是 处 理 大 数据 集合 ， 同 时 这 些 应 用 多 是 一 次 写 入 多 次 读 取 ， 并 且 读 的 速度 要 满足 流 式 读 ， 即 write-once-read-many 的 语义 。 一 个 典型 的 Block 大 小 是 64MB， 因 此 文件 总 是 按 
照 64MB 切 分 成 Chunk， 每 个 Chunk 存 储 于 不 同 的 DataNode 服 务 器 中 。 


2.Staging 


在 某 个 客户 端 上 创建 文件 的 请 求 其 实 并 没有 立即 发 给 NameNode， 事 实 上 ，HDFs 客 户 端 会 将 文件 数据 缓存 到 本 地 的 一 个 临时 文件 中 ， 应 用 写 文件 时 被 透明 地 重 定向 到 这 个 临时 文件 。 当 这 个 临时 文件 
累积 的 数据 超过 一 个 Block 的 大 小 (默认 为 64MB) ， 客 户 端 才 会 联系 NameNode。NameNode 将 文件 名 插入 文件 系统 的 层次 结构 中 ， 并 且 分 配 一 个 数据 块 给 它 ， 然 后 返回 DataNode 的 标识 符 和 目标 数据 
块 给 客户 端 。 客 户 端 将 本 地 临时 文件 flush 到 指定 的 DataNode 上 。 当 文件 关闭 时 ， 在 临时 文件 中 剩余 的 没有 flush 的 数据 也 会 传输 到 指定 的 DataNode， 然 后 客户 端 告诉 NameNode 文 件 已 经 天 闭 。 此 时 
NameNode 才 将 文件 创建 操作 提交 到 持久 存储 。 如 果 NameNode 在 文件 天 闭 前 挂机 ， 该 文件 将 丢失 。 


上 述 方 法 是 对 在 HDFS 上 运行 的 目标 应 用 认真 考虑 的 结果 。 如 果 不 采 用 客户 端 缓存 ， 网 络 速 度 和 网 络 堵塞 因素 会 对 吞吐 量 造成 比较 大 的 影响 。 
3. 流 水 线 式 的 复制 


当 某 个 客户 端 向 HDFSs 文 件 写 数据 的 时 候 ， 一 开始 是 写 入 本 地 的 临时 文件 ， 假 设 该 文件 的 replication 因 子 为 3， 那 么 客户 端 会 从 NameNode 获 取 一 张 DataNode 列 表 来 存放 副本 。 然 后 客户 端 开始 向 第 一 
个 DataNode 传 输 数 据 ， 第 一 个 DataNode 会 一 小 部 分 一 小 部 分 (4KB) 地 接收 数据 ， 将 每 个 部 分 写 入 本 地 仓库 ， 同 时 传输 该 部 分 到 第 二 个 DataNode。 第 二 个 DataNode 也 是 这 样 ， 边 收 边 传 ， 一 小 部 分 一 
小 部 分 地 接收 ， 将 每 个 部 分 存储 在 本 地 仓库 ， 同 时 传 给 第 三 个 DataNode。 第 三 个 DataNode 仅 仅 接 收 并 存储 。 这 就 是 流水 线 式 的 复制 。 


3.4.5 ”空间 回收 


1. 文 件 的 删除 和 恢复 


当 用 户 或 应 用 删除 某 个 文件 时 ， 这 个 文件 并 没有 立刻 从 HDFs 中 被 删除 。 相 反 ，HDFs 将 这 个 文件 重 命名 ， 并 转移 到 trash 目 录 下 。 当 文件 还 在 trash 目 录 下 时 ， 该 文件 可 以 被 迅速 恢复 。 文 件 在 trash 目 录 
中 保存 的 时 间 是 可 设置 的 ， 当 超过 设 定 的 时 间 后 ，NameNode 就 会 将 该 文件 从 namespace 中 删除 。 文 件 被 删除 的 同时 也 将 释放 关联 该 文件 的 数据 块 。 可 以 看 到 ， 在 文件 被 用 户 删除 和 HDFSs 空 闲 空间 的 增加 
之 间 会 有 一 个 等 待 时 间 延 迟 。 

当 被 删除 的 文件 还 保留 在 trash 目 录 中 时 ， 如 果 用 户 想 恢复 这 个 文件 ， 可 以 在 trash 目 录 下 检索 该 文件 。trash 目 录 仅 仅 保 人 存 被 删除 文件 的 最 近 一 次 副本 。trash 目 录 与 其 他 文件 目录 没有 什么 不 同 ， 除 了 
HDFs 在 该 目录 上 应 用 了 一 个 特殊 的 策略 来 自动 删除 文件 ， 目 前 的 默认 策略 是 删除 保留 超过 6 小 时 的 文件 。 这 个 策略 可 以 定义 成 可 设置 的 。 


2. 减 小 副本 系数 


在 减 小 某 个 文件 的 副本 系数 后 ，NameNode 会 选择 要 删除 的 过 剩 的 副本 。 下 次 心跳 检测 就 将 该 信息 传递 给 DataNode，DataNode 就 会 移 除 相应 的 Block 并 释放 空间 。 同 样 ， 在 调用 setReplication API 
结束 和 集群 中 的 空闲 空间 增加 时 会 有 一 个 时 间 延 迟 。 


3.4.6 通信 协议 


所 有 的 HDFS 通 信 协 议 都 是 构建 在 TCP/IP 协 议 上 的 。 客 户 端 通过 一 个 可 配置 的 端口 连接 到 NameNode， 通 过 ClientProtocol 与 NameNode 交 互 ， 而 DataNode 是 使 用 DataNodeProtoco| 与 
NameNode 交 互 。 从 ClientProtocol 和 DataNodeProtocol 抽 象 出 一 个 远程 调用 (RPC)， 在 设计 上 ，NameNode 不 会 主动 友 起 RPC， 而 是 响应 来 自 客户 端 和 DataNode 的 RPC 请 求 。 


3.4.7 ”安全 模式 


安全 模式 是 这 样 一 种 特殊 状态 : 当 系 统 处 于 这 个 状态 时 ， 不 接受 任何 对 名 称 空间 的 修改 ， 同 时 也 不 会 对 数据 块 进行 复制 或 删除 。NameNode 在 启动 的 时 候 会 自动 进入 安全 模式 ， 也 可 以 手动 进入 (不 会 
自动 离开 ) 。NameNode 从 所 有 的 DataNode 接 收 心跳 信号 和 块 状态 报告 。 块 状态 报告 包括 了 某 个 DataNode 所 有 的 数据 块 列表 ， 每 个 数据 块 都 有 一 个 指定 的 最 小 副本 数 。 当 NameNode 检 测 确 认 某 个 数 
据 块 的 副本 数目 达到 这 个 最 小 值 时 ， 该 数据 块 就 会 被 认为 是 副本 安全 (safely replicated) 的 ; 在 一 定 百分比 (这 个 参数 可 配置 ) 的 数据 块 被 NameNode 检 测 确认 是 安全 的 之 后 (加 上 一 个 额外 的 30 秒 等 待 
时 间 ) ，NameNode 将 退出 安全 模式 状态 。 相 关 参 数 包括 : 

.dfs.safemode threshold.pct， 接 受到 的 Block 的 比例 ， 默 认为 958， 也 就 是 说 ， 必 须 DataNode 报 告 的 数据 块 数目 占 总 数 的 958s， 才 到 达 门槛 。 
:dfs .replication.min， 等 待 时 间 默 认为 1， 即 每 个 副本 都 存在 系统 中 。 


:qdqfs.replication.min， 等 待 时间 默 认为 0， 单 位 为 秒 。 


NameNode 退 出 安全 模式 之 后 会 确定 还 有 哪些 数据 块 的 副本 没有 达到 指定 数目 ， 并 将 这 些 数 据 块 复制 到 其 他 DataNode 上 。 


同样 ， 有 两 种 方法 可 用 于 离开 这 种 安全 模式 ， 第 一 种 就 是 修改 dfs.safemode.threshold.pct 为 一 个 比较 小 的 值 ， 默 认 是 0.999; 第 二 种 方法 就 是 通过 hadoop 命 令 强 制 执行 ， 相 关 命 令 如 下 : 


hadoop dfsadmin -safemode leave 


用 户 可 以 通过 dfsadmin 命 令 来 操作 安全 模式 ， 相 关 命 令 如 下 : 


hadoop dfsadmin -safemode enter // 进入 安全 模式 

hadoop dfsadmin -safemode leave // 强制 NameNode 离 开 安 全 模式 
hadoop dfsadmin -safemode get // 返回 安全 模式 是 否 开启 的 信息 
hadoop dfsadmin -safemode wait // 等 待 ， 一 直到 安全 模式 结 


3.4.8 机 架 感 知 


在 通常 情况 下 ， 大 型 Hadoop 集 群 是 以 机 架 的 形式 来 组 织 的 ， 同 一 个 机 架 上 不 同 节点 间 的 网 络 状况 比 不 同 机 架 之 间 的 更 为 理想 。 另 外 ，NameNode 设 法 将 数据 块 副本 保存 在 不 同 的 机 架 上 ， 以 提高 容错 
性 。Hadoop 人 允许 集群 的 管理 员 通 过 配置 dfs.network.script 参 数 来 确定 节点 所 处 的 机 架 。 在 这 个 脚本 配置 完毕 后 ， 每 个 节点 都 会 运行 这 个 脚本 来 获取 它 的 机 架 ID。 默 认 安 装 的 假定 所 有 的 节点 都 属于 同一 个 
机 架 。 

3.4.9 ”健壮 性 

HDFS 的 主要 目标 就 是 实现 在 失败 情况 下 数据 存储 的 可 靠 性 。 常 见 的 三 种 失败 情况 是 : NameNode failures、DataNode failures 和 网 络 分 割 (network partitions)， 这 几 种 失败 很 容易 导致 HPDFs 中 的 
组 件 失效 。 下 面 将 分 别 从 数据 错误 、 集 群 均衡 、 数 据 完 整 性 、 元 数据 磁盘 错误 ， 以 及 快照 五 个 方面 前 述 HDFS 的 健壮 性 设计 。 

1. 数 据 错 误 

每 个 DataNode 都 向 NameNode 周 期 性 地 发 送 心跳 包 。 网 络 切 割 可 能 会 导致 部 分 DataNode 与 NameNode 失 去 联系 。NameNode 可 通过 心跳 包 的 缺失 检测 到 这 一 情况 ， 并 将 这 些 DataNode 标 记 为 
dead， 不 会 向 它们 发 送 IO 请 求 ， 寡 存在 dead DataNode 上 的 任何 数据 将 不 再 有 效 。DataNode 的 “死亡 ”可 能 引起 一 些 Block 的 副本 数目 低 于 指定 值 ，NameNode 不 断 地 跟踪 需要 复制 的 Block， 并 在 需要 
的 情况 下 启动 复制 。 在 下 列 情况 中 可 能 需要 重新 复制 : 某 个 DataNode 失 效 、 某 个 副本 遭 到 损坏 、DataNode 上 的 硬盘 错误 ,或 者 文件 的 replication 因 子 增 大 。 

2. 集 群 均 衔 

HDFS 支 持 数 据 的 均衡 计划 ， 如 果 某 个 DataNode 上 的 空空 间 低 于 特定 的 临界 点 ， 那 么 就 会 启动 一 个 计划 一 一 自动 将 数据 从 一 个 DataNode 搬 移 到 空 闪 的 DataNode。 当 对 某 个 文件 的 请 求 突然 增加 ， 
也 可 能 会 启动 一 个 计划 一 一 创建 该 文件 新 的 副本 ， 并 将 此 副本 分 布 到 集群 中 以 满足 应 用 的 要 求 。 

3. 数 据 完整 性 


从 某 个 DataNode 获 取 的 数据 块 有 可 能 是 已 损坏 的 ， 损 坏 可 能 是 由 于 DataNode 的 存储 设备 错误 、 网 络 错误 或 者 软件 bug 造 成 的 。HDFS 客 户 端 软件 实现 了 HDFS 文 件 内 容 的 校 验 和 。 当 某 个 客户 端 创建 
一 个 新 的 HDFS 文 件 ， 会 计算 这 个 文件 的 每 个 Block 的 校 验 和 ， 并 作为 一 个 单独 的 隐藏 文件 保存 这 些 校 验 和 在 同一 个 HDFS namespace 下 。 当 客户 端 检索 文件 内 容 ， 它 会 确认 从 DataNode 获 取 的 数据 跟 相应 
的 校 验 和 文件 中 的 校 验 和 是 否 匹 配 ， 如 果 不 匹 配 ， 客 户 端 可 以 选择 从 其 他 DataNode 获 取 该 Block 的 副本 。 


4. 元 数据 磁盘 错误 


FslImage 和 Editlog 是 HDFS 的 核心 数据 结构 。 这 些 文件 如 果 损 坏 了 ， 整 个 HDFS 实 例 都 将 失效 。 因 而 ，NameNode 可 以 配置 成 支持 维护 多 个 Fslmage 和 Editlog 的 副本 。 任 何 对 FslImage 或 Editlog 的 修 
改 ， 都 将 同步 到 它们 的 副本 上 。 这 个 同步 操作 可 能 会 降低 NameNode 每 秒 能 支持 处 理 的 namespace 事 务 。 这 个 代价 是 可 以 接受 的 ， 因 为 HDFS 是 数据 密集 的 ， 而 非 元 数据 密集 。 当 NameNode 重 启 的 时 


候 ， 它 总 是 选取 最 近 的 、 一 致 的 Fsimage 和 Editlog 使 用 。 

由 于 目前 的 HDFs 是 单 NameNode 设 计 ， 存 在 单 点 故障 ， 如 果 NameNode 所 在 的 机 器 出 现 错误 ， 手 动 干预 是 必须 进行 的 。 
5. 快 昭 

快照 支持 某 个 时 间 的 数据 副本 ， 当 HDFS 数 据 损坏 的 时 候 ， 可 以 恢复 到 过 去 一 个 已 知 的 正确 时 间 点 。 


3.4.10 ”负载 均衡 


HDFS 的 数据 也 许 并 不 是 非常 均匀 地 分 布 在 各 个 DataNode 中 。HDFS 集 群 非常 容易 出 现 机 器 与 机 器 之 间 磁 盘 利 用 率 不 平衡 的 情况 ， 一 个 常见 的 原因 是 在 现 有 的 集群 上 经 常会 增添 新 的 DataNode。 当 新 
增 一 个 数据 块 (一 个 文件 的 数据 被 保存 在 一 系列 的 块 中 ) 时 ，NameNode 在 选择 DataNode 接 收 这 个 数据 块 之 前 ， 要 考虑 到 很 多 因素 。 其 中 的 一 些 因素 如 下 : 

-将 数据 块 的 一 个 副本 放 在 正在 写 这 个 数据 块 的 节点 上 。 

.尽量 将 数据 块 的 不 同 副 本 分 布 在 不 同 的 机 架 上 ， 这 样 集群 可 在 完全 失去 某 一 机 架 的 情况 下 还 能 存活 。 

一 个 副本 通常 被 放置 在 和 写 文件 的 节点 同一 机 架 的 某 个 节点 上 ， 这 样 可 以 减少 跨越 机 架 的 网 络 I/o。 

尽量 均匀 地 将 HDFS 数 据 分 布 在 集群 的 DataNode 中 。 


由 于 上 述 多 种 考虑 需要 取舍 ， 数 据 可 能 并 不 会 均匀 分 布 在 DataNode 中 。 当 HDFS 出 现 不 平衡 状况 的 时 候 ， 将 引发 很 多 问题 ， 比 如 MapReduce 程 序 无 法 很 好 地 利用 本 地 计算 的 优势 ， 机 器 之 间 无 法 达到 
更 好 的 网 络 带宽 使 用 率 、 机 器 磁盘 无 法 利用 等 。 可 见 ， 保 证 HDFS 中 的 数据 平衡 是 非常 重要 的 。 为 此 ，HDFS 为 管理 员 提 供 了 一 个 工具 ， 用 于 分 析 数 据 块 分 布 和 重新 均衡 DataNode 上 的 数据 分 布 : 


a 


HADOOP HOME/bin/start-balancer.sh -t 10% 


在 这 个 命令 中 ，-t 参 数 后 面 跟 的 是 HDFS 达 到 平衡 状态 的 磁盘 使 用 率 偏差 值 。 如 果 机 器 与 机 器 之 间 磁 盘 使 用 率 偏 差 小 于 10%， 那 么 我 们 就 认为 HDFS 和 集群 已 经 达到 了 平衡 状态 。 


Hadoop 开 发 人 员 在 开发 负载 均衡 程序 Balancer 的 时 候 ， 建 议 遵 循 以 下 几 个 原则 。 


在 执行 数据 重 分 布 的 过 程 中 ， 必 须 保证 数据 不 能 出 现 丢失 ， 不 能 改变 数据 的 备份 数 ， 不 能 改变 每 一 个 机 架 中 所 具备 的 Block 数 量 。 
系统 管理 员 可 以 通过 一 条 命令 启动 数据 重 分 布 程序 或 停止 数据 重 分 布 程序 。 

:Block 在 移动 的 过 程 中 ， 不 能 占用 过 多 的 资源 ， 如 网 络 带 宽 。 

"数据 重 分 布 程序 在 执行 的 过 程 中 ， 不 能 影响 NameNode 的 正常 工作 。 


HDFS 数 据 重 分 布 程序 实现 的 逻辑 流程 ， 如 图 3-7 所 示 。 
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图 3-7 HDFS 数 据 重 分 布 流程 示意 图 

负载 均衡 程序 作为 一 个 独立 的 进程 与 NameNode 进 行 分 开 执 行 。 从 图 3-7 中 可 以 看 到 ，HDFS 负 载 均 衡 的 处 理 步 又 如 下 : 

1) 负载 均衡 服务 Rebalancing Server 从 NameNode 中 获取 所 有 的 DataNode 情 况 ， 具 体 包 括 每 一 个 DataNode 磁 盘 使 用 情况 ， 见 图 3-7 中 的 流程 1.get datanode report。 

2) Rebalancing Serveri 计 算 哪 些 机 器 需要 将 数据 移动 ， 哪 些 机 器 可 以 接受 移动 的 数据 ， 以 及 从 NameNode 中 获取 需要 移动 数据 的 分 布 情况 ， 见 图 3-7 中 的 流程 2.get partial blockmap。 
3) Rebalancing Server 计 算出 来 可 以 将 哪 一 台 机 器 的 Block 移 动 到 另 一 台 机 器 中 去 ， 见 图 3-7 中 流程 3.copy a block。 

4) 需要 移动 Block 的 机 器 将 数据 移动 到 目标 机 器 上 ， 同 时 删除 自己 机 器 上 的 Block 数 据 ， 见 图 3-7 中 的 流程 4、5、6。 

5) Rebalancing Server 获 取 本 次 数据 移动 的 执行 结果 ， 并 继续 执行 这 个 过 程 ， 一 直到 没有 数据 可 以 移动 或 HDFS 集 群 已 经 达到 平衡 的 标准 为 止 ， 见 图 3-7 中 的 流程 7。 


上 述 HDFS 的 这 种 负载 均衡 工作 机 制 在 绝 大 多 数 情况 下 都 是 非常 适合 的 ， 然 而 一 些 特 定 的 场景 确实 还 是 需要 不 同 的 处 理 方 式 ， 这 里 假定 一 种 场景 : 
:复制 因子 是 3。 


:HDF'S 由 两 个 机 架 (rack) 组 成 。 


两 个 机 架 中 的 机 器 磁盘 配置 不 同 ， 第 一 个 机 架 中 每 一 台 机 器 的 磁盘 配置 为 27TB， 第 二 个 机 架 中 每 一 台 机 器 的 磁盘 配置 为 12TB。 
` 大 多 数 数据 的 两 份 备份 都 存储 在 第 一 个 机 架 中 。 


在 这 样 的 情况 下 ，HDFS 集 群 中 的 数据 肯定 是 不 平衡 的 ， 现 在 运行 负载 均衡 程序 ， 会 发 现 运 行 结束 以 后 整个 HDFS 集 群 中 的 数据 依旧 不 平衡 : rack1 中 的 磁盘 剩余 空间 远 远 小 于 rack2， 这 是 因为 负载 均衡 
程序 的 原则 是 不 能 改变 每 一 个 机 架 中 所 具备 的 Block 数 量 的 。 简 单 地 说 ， 就 是 在 执行 负载 均衡 程序 的 时 人 息 ， 不 会 将 数据 从 一 个 机 架 移 到 另 一 个 机 架 中 ， 所 以 就 导致 了 负载 均衡 程序 永远 无 法 平衡 HDFS 集 群 的 
情况 。 


针对 于 这 种 情况 就 需要 HDFS 系 统管 理 员 手动 操作 来 达到 负载 均衡 ， 操 作 步 又 如 下 : 


1) 继续 使 用 现 有 的 负载 均衡 程序 ， 但 修改 机 架 中 的 机 器 分 布 ， 将 磁盘 空间 小 的 机 器 部 署 到 不 同 的 机 架 中 去 。 


2) 修改 负载 均衡 程序 ， 人 允许 改变 每 一 个 机 架 中 所 具有 的 Block 数 量 ， 将 磁盘 空间 告急 的 机 架 中 存放 的 Block 数 量 减 少 ,或 者 将 其 移 到 其 他 磁盘 空间 富余 的 机 架 中 去 。 


3.4.11 升级 和 回 滚 机 制 


作为 一 个 大 型 的 分 布 式 系统 ，Hadoop 内 部 实现 了 一 套 升 级 机 制 ， 当 在 一 个 集群 上 升级 Hadoop 时 ， 像 其 他 的 软件 升级 一 样 ， 可 能 会 有 新 的 bug 或 一 些 会 影响 现 有 应 用 的 非 兼 容 性 变更 出 现 。 在 任何 有 实 
际 意 义 的 HDFS 系 统 中 ， 丢 失 数 据 是 不 允许 的 ， 更 不 用 说 重新 搭建 启动 HDFS9 了 。 当 然 ， 升 级 可 能 成 功 ， 也 可 能 失败 。 如 果 失 败 了 ， 那 就 用 rollback 进 行 回 滚 ; 如 果 过 了 一 段 时 间 ， 系 统 运 行 正 常 ， 那 就 可 以 
通过 finalize 正 式 提 交 这 次 升级 。 相 关 升 级 和 回 滚 命令 如 下 : 


bin/hadoop namenode -upgrade // 升级 
bin/hadoop namenode -rollback // 回 深 
bin/hadoop namenode -finalize // 提交 


bin/hadoop namenode -importCheckpoint  // 从 Checkpoint 恢 复 


上 述 命令 的 importCheckpoint 参 数 用 于 NameNode 发 生 故 障 后 ， 从 某 个 检查 点 恢复 。HDFS 人 允许 管理 员 退 回 到 之 前 的 Hadoop 版 本 ， 将 集群 的 状态 回 滚 到 升级 之 前 。 在 升级 之 前 ， 管 理 员 需要 用 以 下 命 
令 删 除 已 存在 的 备份 文件 : 


bin/hadoop dfsadmin -f?inalizeUpgrade // 升级 终结 操作 


下 面 简单 介绍 一 下 一 般 的 升级 过 程 。 


在 升级 Hadoop 软 件 之 前 ， 检 查 是 否 已 经 存在 一 个 备份 ， 如 果 备 份 存 在 ， 可 执行 升级 终结 操作 删除 这 个 备份 。 通 过 以 下 命令 能 够 知道 是 否 需要 对 一 个 集群 执行 升级 终结 操作 : 


dfsadmin -upgradeProgress status 


1) 停止 集群 并 部 署 Hadoop 的 新 版 本 。 
2) 使 用 -upgrade 选 项 运行 新 的 版 本 (bin/start-dfs.sh-upgrade) 。 


在 大 多 数 情况 下 ， 集 群 都 能 够 正常 运行 。 一 旦 我 们 认为 新 的 HDFS 运 行 正常 (也 许 经 过 几 天 的 操作 之 后 ) ， 就 可 以 对 其 执行 升级 终结 操作 。 需 要 注意 的 是 ， 在 对 一 个 集群 执行 升级 终结 操作 之 前 ， 删 除 那 
些 升级 前 就 已 经 存在 的 文件 并 不 会 真正 地 释放 DataNode 上 的 磁盘 空间 。 


如 果 需 要 退回 到 老 版 本 ,执行 步骤 如 下 : 
1) 停止 集群 并 部 署 Hadoop 的 老 版 本 。 
2) 用 回 滚 选项 启动 集群 ， 命 令 如 下 : 


bin/start-dfs.h -rollback 


上 面 介绍 了 HDFS 升 级 和 回 滚 的 基本 机 制 ， 其 实 可 以 从 状态 转移 的 角度 来 理解 HDFS 的 升级 和 回 滚 机 制 。 整 个 HDFS 的 状态 有 : Normal，Upgraded，Rollbacking，Upgrading，Finalizing 五 
种 ，HDFS 集 群 的 状态 转移 示意 图 ， 如 图 3-8 所 示 。 
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图 3-8 HDFS 升 级 回 滚 状态 转移 示意 图 


从 图 3-8 中 可 以 看 出 ,升级 、 回 滚 、 提 交 都 不 可 能 一 下 完成 ， 这 也 就 是 说 ， 在 HDFS 系 统 出 现 故 障 时 ， 集 群 可 能 处 于 图 3-8 右 侧 图 中 某 一 个 状态 中 。 特 别 是 在 分 布 式 的 各 个 节点 上 ， 甚 至 可 能 出 现 有 些 节 
点 已 经 升级 成 功 ， 但 有 些 节点 可 能 处 于 中 间 状 态 的 情况 ， 所 以 Hadoop 采 用 类 似 于 数据 库 事务 的 升级 机 制 也 就 很 容易 理解 了 。 


3.5 ”HDFS 权 限 管 理 


HDFS 系 统 实现 了 一 个 和 POSIX 系 统 类 似 的 文件 和 目录 的 权限 模型 。 每 个 文件 和 目录 有 一 个 所 有 者 (owner) 和 一 个 组 (group) 。 文 件 或 目录 对 其 所 有 者 、 同 组 的 其 他 用 户 ， 以 及 所 有 其 他 用 户 分 别 有 
着 不 同 的 权限 。 对 文件 而 言 ， 当 读 取 这 个 文件 时 需要 有 r 权 限 ， 当 写 入 或 追加 到 文件 时 需要 有 w 权 限 。 对 目录 而 言 ， 当 列 出 目录 内 容 时 需要 具有 r 权 限 ， 当 新 建 或 删除 子 文件 或 子 目录 时 需要 有 w 权 限 ， 当 访问 
目录 的 子 节点 时 需要 有 x 权 限 。 不 同 于 POSIX 模 型 ，HDFS 权 限 模型 中 的 文件 没有 sticky，setuid 或 setgid 位 ， 因 为 其 中 没有 可 执行 文件 的 概念 。 为 了 简单 起 见 ， 这 里 也 没有 目录 的 sticky，setuid 或 setgid 


位 。 总 的 来 说 ， 文 件 或 目录 的 权限 就 是 它 的 模式 (mode) 。HDFS 采 用 了 UNIX 表 示 和 显示 模式 的 习惯 ,包括 使 用 八进制 数 来 表示 权限 。 当 新 建 一 个 文件 或 目录 时 ， 它 的 所 有 者 即 客户 进程 的 用 户 ， 它 的 所 
属 组 是 父 目 录 的 组 (BSD 的 规定 ) 。 


每 个 访问 HDFS 的 用 户 进程 的 标识 分 为 两 个 部 分 ， 分 别 是 用 户 名 和 组 名 列表 。 例 如 ， 当 用 户 进 程 访 问 一 个 HDFS 上 的 文件 或 目录 app 时 ，HDFS 都 要 对 其 进行 权限 检查 ， 步 又 如 下 : 
1) 如 果 用 户 即 App 的 所 有 者 ， 则 检查 所 有 者 的 访问 权限 。 

2) 如 果 App 关 联 的 组 在 组 名 列表 中 出 现 ， 则 检查 组 用 户 的 访问 权限 。 

3) 否则 ， 检 查 App 其 他 用 户 的 访问 权限 。 


如 果 权限 检查 失败 ， 则 客户 的 操作 也 会 失败 。 下 面 将 从 用 户 身 份 、 系 统 实现 、 超 级 用 户 以 及 配置 参数 等 方面 讲述 HDFS 中 的 权限 管理 。 


3.5.1 用 户 与 份 


HDFs 权 限 管理 采用 UNIX 的 机 制 ， 文 件 用 户 分 文件 属 主 、 文 件 组 和 其 他 用 户 ， 权 限 分 为 读 、 写 和 执行 。 在 最 简单 的 情况 下 ， 客 户 端 用 户 身份 可 以 通过 宿主 操作 系统 给 出 。 对 UNIX 系 统 来 说 可 以 执行 : 


whoami // 用 户 名 
bash -c groups // 组 列表 


目前 在 Hadoop-1.0.0 以 及 CDH3 版 本 后 ，Hadoop 已 经 增加 了 Kerberos 强 认证 机 制 。Kerberos 可 以 将 认证 的 密 匙 在 机 器 部 署 时 放 到 可 靠 的 节点 上 ， 在 集群 启动 之 后 ， 其 Hadoop 内 部 的 节点 就 会 使 用 密 
匙 得 到 认证 ， 只 有 被 认证 过 的 节点 才能 正常 使 用 ， 而 伪装 的 节点 由 于 没有 得 到 密 匙 便 无 法 与 Hadoop 集 群 内 部 节点 通信 ， 这 样 就 可 以 防止 集群 被 恶意 使 用 或 算 改 配置 ， 从 而 保证 了 集群 的 安全 性 。 


不 管 怎样 ， 用 户 身份 机 制 对 HDFS 本 身 来 说 只 是 外 部 特性 。HDFS 并 不 提供 创建 用 户 身份 、 创 建 组 或 处 理 用 户 凭证 等 功能 。 


3.5.2 ”系统 实现 


每 次 对 文件 或 目录 进行 操作 都 传递 完整 的 路 径 名 给 NameNode， 每 一 个 操作 都 会 对 此 路 径 做 权限 检查 。 客 户 框架 会 隐 式 地 将 用 户 身份 与 NameNode 的 连接 关联 起 来 ， 从 而 减少 改变 现 有 客户 端 API 的 需 
求 。 经 常会 有 这 种 情况 ， 在 对 一 个 文件 的 某 一 操作 执行 成 功 后 ， 同 样 的 操作 却 会 失败 ， 这 是 因为 文件 或 路 径 上 的 某 些 目录 已 经 不 复 存 任 了 。 比 如 ， 客 户 端 首先 开始 读 一 个 文件 ， 它 向 NameNode 发 出 一 个 请 
求 以 获取 文件 第 一 个 数据 块 的 位 置 。 但 接 下 来 获取 其 他 数据 块 的 第 二 个 请 求 可 能 会 失败 。 需 要 注意 的 是 ， 删 除 一 个 文件 并 不 会 撤销 客户 端 已 经 获得 的 对 文件 数据 块 的 访问 权限 。 而 权限 管理 能 使 客户 端 对 一 
个 文件 的 访问 许可 在 两 次 请 求 之 间 被 收回 。 重 复 一 下 ， 权 限 的 改变 并 不 会 撤销 当前 客户 端 对 文件 数据 块 的 访问 许可 。 


MapReduce 框 架 通 过 传递 字符 串 来 指派 用 户 身份 ， 没 有 做 其 他 特别 的 安全 方面 的 考虑 。 文 件 或 目录 的 所 有 者 和 组 属性 是 以 字符 串 形 式 保存 的 ， 而 不 是 像 传统 的 Unix 方 式 转换 为 用 户 和 组 的 数字 |D。 
3.5.3 ”超级 用 户 


超级 用 户 即 运行 NameNode 进 程 的 用 户 。 宽 泛 地 讲 ， 如 果 你 启动 了 NameNode， 你 就 是 超级 用 户 。 超 级 用 户 可 以 干 任何 事情 ， 因 为 超级 用 户 能 够 通过 所 有 的 权限 检查 。 没 有 永久 记号 来 保留 谁 过 去 是 
超级 用 户 ， 当 NameNode 开 始 运行 时 ， 进 程 自动 判断 谁 现在 是 超级 用 户 。HDFs 的 超级 用 户 不 一 定 非得 是 NameNode 主 机 上 的 超级 用 户 ， 也 不 需要 所 有 集群 的 超级 用 户 都 是 一 个 。 同 样 ， 在 工作 站 上 运行 
HDFS 的 实验 者 ， 不 需 任何 配置 就 可 以 方便 地 成 为 了 他 部 署 实例 的 超级 用 户 。 


另外 ， 管 理 员 可 以 用 配置 参数 指定 一 组 特定 的 用 户 ， 如 果 做 了 设 定 ， 这 个 组 的 成 员 也 会 是 超级 用 户 。 
3.5.4 配置 参数 


1. 权 限 检查 配置 


一 个 非常 重要 的 权限 配置 就 是 权限 检查 ， 可 以 通过 dfs.permissions 配 置 参数 进行 配置 ， 代 码 如 下 : 


dfs.permissions = true 


如 果 是 true， 则 打开 权限 检查 系统 ;如 果 是 false， 权 限 检查 就 是 关闭 的 ， 但 是 其 他 行为 没有 改变 。 这 个 配置 参数 的 改变 并 不 改变 文件 或 目录 的 模式 、 所 有 者 和 组 等 信息 。 


不 管 权限 模式 是 开 还 是 关 ，chmod、chgrp 和 chown 总 是 会 检查 权限 。 这 些 命令 只 有 在 权限 检查 背景 下 才 有 用 ， 所 以 不 会 有 兼容 性 问题 。 这 样 就 能 让 管理 员 在 打开 常规 的 权限 检查 之 前 可 以 放心 地 设置 
文件 的 所 有 者 和 权限 。 


2.Web 服 务 器 用 户 权 限 配置 


同样 可 以 对 Web 服 务 器 的 用 户 进行 配置 ， 使 用 dfs.web.ugi 参 数 ， 代 码 如 下 : 


dfs.web.ugi = webuser,webgroup 


此 参数 用 于 设置 Web 服 务 器 使 用 的 用 户 名 ， 如 果 将 这 个 参数 设置 为 超级 用 户 的 名 称 ， 则 所 有 Web 客 户 就 可 以 看 到 所 有 的 信息 。 如 果 将 这 个 参数 设置 为 一 个 不 使 用 的 用 户 ， 则 Web 客 户 就 只 能 访问 到 
other 权 限 可 访问 的 资源 。 额 外 的 组 可 以 加 在 后 面 ， 形 成 一 个 用 逗号 分 隔 的 列表 。 


需要 注意 的 是 NameNode 并 没有 真实 用 户 的 概念 ， 但 是 Web 服 务 器 表现 得 就 像 它 具有 管理 员 选 定 的 用 户 的 身份 (用户 名 和 组 ) 一 样 。 除 非 这 个 选 定 的 身份 是 超级 有 用户， 否则 会 有 名 称 空间 中 的 一 部 分 
内 容 对 Web 服 务 器 来 说 不 可 见 。 


3. 其 他 相关 配置 


(1) 超级 用 户 的 组 名 


dfs.permissions.supergroup = supergroup 


应 用 在 defaultPermission 中 ， 是 系统 的 超级 组 。 


(2) 升级 时 的 初始 模式 


dfs.upgrade.permission = 777 


文件 永 不 会 被 设置 x 权限 。 在 配置 文件 中 ， 可 以 使 用 十 进 制 数 511。 


(3) umask 参 数 


dfs.umask = 022 


umask 参 数 在 创建 文件 和 目录 时 使 用 。 在 配置 文件 中 ， 可 以 使 用 十 进 制 数 18。 


(4) 用 户 文件 属 主 和 文件 组 


hadoop .job.ugi 


本 地 文件 的 用 户 文件 属 主 和 文件 组 ， 如 果 没 有 设置 ， 那 么 将 使 用 启动 HDFS 的 用 户 (通过 whoami 获 得 ) 和 该 用 户 所 在 的 组 (通过 groups 获 得 ) 作为 值 。 


3.6 ”HDFS 配 额 管理 


Hadoop 分 布 式 文件 系统 HDFS 人 允许 管理 员 为 每 个 目录 设置 配额 。 新 建立 的 目录 是 没有 配额 的 ， 最 大 的 配额 是 Long.Max_Value。 配 额 为 1 可 以 强制 目录 保持 为 空 。 


目录 配额 是 对 目录 树 上 该 目录 下 的 文件 及 目录 总 数 进 行 硬性 限制 ， 如 果 创 建文 件 或 目录 时 超过 了 配额 ， 该 操作 会 失败 ; 重 命名 不 会 改变 该 目录 的 配额 ， 如 果 重 命名 操作 导致 违反 配额 限制 ， 该 操作 将 会 
失败 ; 如 果 尝 试 设置 一 个 配额 而 现 有 文件 数量 已 经 超出 了 这 个 新 配额 ， 则 设置 失败 。 


配额 和 fsimage 保 持 一 致 。 当 启动 时 ， 如 果 fsimage 违 反 了 某 个 配额 限制 (也许 fsimage 被 偷偷 改变 了 ) ， 则 启动 失败 并 生成 错误 报告 。 设 置 或 删除 一 个 配额 会 创建 相应 的 日 志 记 录 。 


下 面 的 新 命令 或 新 选项 是 用 于 支持 配额 的 ， 其 中 前 两 个 是 管理 员 命 令 。 


hadoop dfsadmin -setQuota <quota> <dirname>http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/...<dirname> 


把 每 个 目录 配额 设 为 quota。 这 个 命令 会 在 每 个 目录 中 尝试 ， 如 果 quota 不 是 一 个 正 的 长 整 型 (long) 数值 ， 或 者 目录 不 存在 ,或 是 文件 名 不 存在 ,或 者 目录 超过 配额 ， 则 会 发 送 错误 报告 。 


hadoop dfsadmin -clrQuota <dirname>http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/...<dirname> 


这 个 命令 可 以 为 每 个 目录 删除 配额 。 该 命令 会 在 每 个 目录 中 尝试 ， 如 果 目 录 不 存在 或 是 文件 名 不 存在 ， 则 会 发 送 错 误 报告 ;如 果 目 录 原 来 没有 设置 配额 ， 则 不 会 报错 。 


hadoop fs -count[-q] <path> 


在 以 上 命令 中 使 用 -q 选 项 ， 会 报告 每 个 目录 设置 的 配额 ， 以 及 剩余 配额 。 如 果 目 录 没 有 设置 配额 ， 会 报告 none 和 inf。 


3.7 ”HDFS 的 缺点 
HDFS 作 为 谷歌 GFS 的 开源 实现 ， 是 一 个 优秀 的 分 布 式 文 件 系统 ， 它 有 很 多 的 优点 。 然 而 金 无 足 赤 、 人 无 完 人 ，HDFS 当 然 也 不 例外 ， 就 目前 的 情况 而 言 ， 它 在 以 下 几 个 方面 表现 不 佳 。 


1. 访 问 时 延 


HDFS 不 太 适 合 于 那些 要 求 低 延 时 ( 数 十 毫秒 ) 访问 的 应 用 程序 ，HDFS 的 设计 主要 是 为 了 用 于 大 吞吐 量 的 数据 ， 这 是 以 一 定 延 时 为 代价 的 。 目 前 ， 由 于 HDFS 还 是 单 Master 设 计 的 ， 所 有 对 文件 的 请 求 
都 要 通过 它 ， 当 请 求 多 时 ， 必 然 会 有 延 时 。 当 前 ， 对 于 那些 有 低 延 时 要 求 的 应 用 程序 ，HBase 会 是 一 个 更 好 的 选择 。 同 时 ， 可 以 使 用 缓存 或 多 Master 设 计 以 降低 客户 端的 数据 请 求 压 力 ， 从 而 减少 延 时 。 如 
果 要 降低 时 延 还 可 以 对 HDFS 内 部 程序 进行 修改 ， 以 权衡 大 吞吐 量 与 低 延 时 的 关系 。 

2. 对 大 量 小 文件 的 处 理 


因为 NameNode 把 文件 系统 的 元 数据 放置 在 内 存 中 ， 所 以 文件 系统 所 能 容纳 的 文件 数目 是 由 NameNode 的 内 存 大 小 来 决定 的 。 一 般 来 说 ， 每 一 个 文件 、 文 件 夹 和 Block 需 要 占据 150 字 节 左 右 的 空间 ， 
所 以 ， 如 果 有 100 万 个 文件 ， 每 一 个 文件 占据 一 个 Block， 至 少 需要 300MB 内 存 。 就 当前 情况 来 说 ， 数 百 万 的 文件 还 是 可 行 的 ， 当 文件 数 扩 展 到 数 十 亿 时 ， 当 前 的 硬件 水 平 就 不 容易 实现 了 。 还 有 一 个 问题 就 
是 ， 因 为 Map 任 务 的 数量 默认 是 由 splits 来 决定 的 ， 所 以 用 MapReduce 处 理 大 量 的 小 文件 时 ， 就 会 产生 过 多 的 Map 任 务 ， 线 程 管理 开销 将 会 增加 作业 时 间 。 举 个 例子 ， 处 理 10000MB 的 文件 ， 若 每 个 split 
为 10MB， 那 就 会 有 1000 个 Map 任 务 ， 会 有 很 大 的 线程 开销 ; 若 每 个 split 为 100MB， 则 只 有 100 个 Map 任 务 ， 每 个 Map 任 务 将 会 有 更 多 的 事情 要 做 ， 而 线程 的 管理 开销 也 将 减 小 很 多 。 


为 了 让 HDFS 能 够 处 理 好 小 文件 ， 建 议 使 用 以 下 方法 : 


1) 利用 SequenceFile、MapFile、Har 等 方式 归档 小 文件 。 这 个 方法 的 原理 就 是 把 小 文件 进行 归档 管理 ，HBase 就 是 基于 此 的 。 对 于 这 种 方法 ， 如 果 想 找 回 原来 的 小 文件 内 容 ， 就 必须 得 知道 其 与 归档 
文件 的 映射 关系 。 


2) 横向 扩展 。 既 然 一 个 Hadoop 集 群 能 管理 的 小 文件 数量 有 限 ， 那 就 把 几 个 Hadoop 集 群 拖 在 一 个 虚拟 服务 器 后 面 ， 形 成 一 个 大 的 Hadoop 集 群 。Google 就 这 么 干 过 。 


3) 多 Master 设 计 。 这 个 作用 显而易见 。 正 在 研发 中 的 GFS ll 要 改 为 分 布 式 多 Master 设 计 ， 还 要 支持 Master 的 Failover， 而 且 Block 大 小 也 要 改 为 1M， 要 有 意 调 优 处 理 小 文件 。 


3. 多 用 户 写 ， 任 意 文 件 修改 


目前 Hadoop 只 支持 单 用 户 写 ， 不 支持 并 发 多 用 户 写 。 可 以 使 用 Append 操 作 在 文件 的 末尾 添加 数据 ， 但 不 支持 在 文件 的 任意 位 置 进行 修改 。 这 些 特 性 可 能 会 在 将 来 的 版 本 中 加 入 ， 但 是 这 些 特性 的 加 入 
将 会 降低 Hadoop 运 行 的 效率 。 可 以 利用 Chubby、ZooKeeper 之 类 的 分 布 式 协调 服务 来 解决 一 致 性 问题 。 


3.8 小结 


本 章 对 Hadoop 的 存储 系统 HDFS 做 了 比较 详细 的 介绍 ， 从 HDFS 的 基本 概念 到 其 设计 特征 、 架 构 、 核 心 组件 的 工作 机 制 ， 以 及 配额 权限 管理 都 进行 了 详细 描述 。 通 过 学 习 本 章 内 容 ， 我 们 会 对 HDFS 有 
一 个 更 加 深入 的 认识 。HDFSs 是 一 个 高 度 容错 的 分 布 式 文件 系统 ， 非 常 适 合 部 署 大 规模 数据 的 应 用 。 当 然 HDFs 也 有 其 自身 的 一 些 缺 陷 ， 昌 然 如 此 ，HDFs 作 为 一 个 强大 的 分 布 式 文件 存储 系统 仍然 值得 我 们 
学 习 和 使 用 。 


第 4 章 ”HDFS 的 使 用 


通过 第 3 章 的 介绍 ， 我 们 已 经 了 解 了 Hadoop 分 布 式 文件 系统 HDFS 的 基本 原理 、 架 构 以 及 核心 设计 ，HDFS 虽 然 是 Hadoop 的 一 个 重要 组 件 ， 但 是 同时 HDFS 本 身 是 独立 的 ， 并 不 依赖 于 MapReduce 运 
行 环境 ， 可 以 作为 一 个 独立 的 分 布 式 文件 系统 来 使 用 ， 本 章 将 讲述 如 何 使 用 Hadoop 分 布 式 文件 系统 HDFS。 


4.1 HDFS 环 境 准 备 


在 使 用 HDFS 之 前 首先 需要 的 是 一 个 HDFS 的 运行 环境 ， 当 然 可 以 直接 在 Hadoop 运 行 环境 中 使 用 HDFS， 因 为 HDFS 在 启动 Hadoop 时 就 已 经 启动 了 。 这 里 要 讲解 的 是 如 何 只 安装 HDFS， 从 而 将 HDFS 作 
为 一 个 独立 的 分 布 式 文件 系统 来 使 用 ， 本 节 简 要 地 介绍 HDFS 测 试 环境 的 准备 ， 而 在 生产 环境 下 的 安装 配置 详 见 后 续 章 节 的 内 容 。 
4.1.1 HDFS 安 装配 置 


由 于 Hadoop 的 HDFS 并 没有 独立 发 行 版 ， 因 此 下 载 Hadoop 发 行 版 即 可 ，HDFS 的 安装 配置 和 Hadoop 本 身 的 安装 配置 并 没有 多 大 区 别 ， 不 同 之 处 在 于 如 果 只 使 用 HDFS 就 不 需要 对 MapReduce 的 配置 
文件 mapred-site.xml 进 行 配置 ， 也 就 是 只 需要 对 以 下 配置 文件 进行 配置 即 可 : 


-hadoop-env .sh， 用 来 配置 Hadoop 守 护 进程 所 需 的 环境 变量 ， 至 少 配 置 JDK 环 境 变量 。 
“slaves， 用 于 配置 DataNode 节 点 ， 一 行 一 个 主机 名 或 TP 地 址 。 
:masters， 用 于 配置 Secondary NameNode， 在 测试 环境 下 直接 复 用 NameNode 的 主机 即 可 。 


“core-site.xml，Hadoop 核 心 配置 ， 至 少 要 指定 HDFS 的 地 址 以 及 端口 号 。 


:hdfs-site.xml，HDFS 的 属性 参数 配置 ， 至 少 要 指定 复制 因子 dfs .replication。 


各 束 9K 个 


在 上 述 文件 中 ，core-site.xml 和 hdfs-site.xml 在 进行 详细 定制 化 配置 时 ， 可 以 参考 相应 的 默认 配置 文件 core-default.xml 和 hdfs-default,xml， 如 果 进 行 完全 分 布 式 部 署 ， 还 需要 将 整个 Hadoop 目 录 同 
步 复 制 到 在 配置 文件 slaves 和 masters 中 配置 的 所 有 机 器 上 ， 同 时 还 需要 保证 所 有 机 器 的 java 环 境 变量 是 一 致 的 。 要 确保 用 户 对 于 配置 的 HDFs 相 关 目 录 以 及 HADOOP_PID_DIR 目 录 具 有 写 入 权限 。 


最 后 还 要 确定 从 master 节 点 到 slaves 和 masters 中 配置 的 所 有 机 器 都 具有 免 签 ssh 访 问 。 


4.1.2 HDFS 格 式 化 与 启动 


HDFS 安 装配 置 完 之 后 就 可 以 对 其 进行 格式 化 。 在 NodeNode 机 器 上 执行 以 下 命令 进行 HDFS 的 格式 化 操作 : 


hadoop namenode -format 
需要 注意 的 是 ，masters 配 置 文 件 配置 的 是 Secondary NameNode， 而 HDFS 的 NameNode 取 决 于 执行 格式 化 和 启动 命令 的 机 器 。 
在 完成 HDFS 的 格式 化 之 后 就 可 以 开始 启动 HDFS 系 统 ， 执 行 以 下 命令 进行 启动 : 


bin/start-dfs.sh 


HDFS 和 集群 在 启动 相关 守护 进程 时 会 创建 所 需 的 相关 目录 ， 包 括 PID，Hadoop 临 时 文件 目录 等 ， 如 果 由 于 某 些 原 因 导 致 创建 失败 ， 就 会 输出 错误 信息 并 记录 到 Hadoop 的 logs 目 录 ， 因 为 如 没有 成 功 启 
动 HDFSs 或 者 抛 出 异常 ， 用 户 就 可 以 通过 查看 日 志 来 定位 问题 。 


4.1.3 HDFs 运 行 检查 
在 启动 HDFS 之 后 ， 还 需要 对 其 守护 进程 是 否 正常 启动 、 运 行进 行 验证 ， 建 议 在 启动 HDFS 命 令 后 等 待 约 1 分 钟 时 间 进 行进 程 检查 ， 这 样 比 较 保 险 。 


首先 需要 验证 NameNode 和 Secondary NameNode 的 守护 进程 是 否 存 在 ， 登 录 到 NameNode 和 Secondary NameNode 机 器 节点 ， 然 后 执行 jsp 命 令 查看 是 否 存 在 。 如 果 启 动 失败 ， 用 户 可 以 在 
Hadoop 的 日 志 目 录 进 程 中 检查 原因 ， 默 认 日 志 位 置 : logs/hadoop-${USER}-namenode.log。 


接 下 来 还 需要 验证 每 个 从 节点 上 的 DataNode 守 护 进程 是 否 都 存在 ， 可 以 使 用 Hadoop 目 录 下 的 bin/slaves.sh 命 令 来 查看 ， 具 体 命令 如 下 : 
bin/slaves.sh jps | grep Datanode | sort 


如 果 每 个 从 节点 的 DataNode 守 护 进程 都 运行 正常 ， 则 这 个 命令 执行 后 会 显示 所 有 已 经 正常 启动 的 与 DataNode 运 行 相关 的 信息 ， 一 行 一 个 。 


在 启动 HDFS 的 时 候 往 往 会 导致 HDFS 运 行 失败 ， 一 般 都 是 目录 权限 问题 ， 在 格式 化 以 及 启动 命令 执行 时 会 显示 “Cannot create directory” “No such file or directory” 这 样 的 错误 信息 ， 这 个 时 候 
查看 日 志 确 定 问题 后 需要 检查 一 下 安装 Hadoop 的 用 户 ， 也 就 是 Hadoop 的 超级 用 户 是 否 对 配置 文件 中 指定 的 目录 具有 写 入 权限 ， 例 如 HDFs 的 dfs.name.dir、dfs.data.dir、hadoop.tmp.dir、 
HADOOP_PID_DIR 等 配置 的 目录 是 否 具 有 写 入 权限 。 

然后 就 是 DataNode 和 NameNode 之 间 的 通信 连接 问题 ， 在 此 往往 会 出 现 “java.net.NoRouteToHostException: No route to host” 的 错误 提示 信息 ， 这 个 时 候 用 户 需要 检查 NameNode 节 点 到 所 


有 DataNode 节 点 之 的 IP 地 址 是 否 正确 以 及 相关 端口 是 否 已 打开 。 


用 户 还 可 以 使 用 HDFS 的 管理 员 命令 查看 HDFS 集 群 系统 的 状况 ， 命 令 如 下 : 


bin/hadoop dfsadmin -report 


一 个 伪 分 布 式 的 HDFS 系 统 的 检查 报告 截图 ， 如 图 4-1 所 示 。 


nuocline®S@ubuntu: 一 
File Edit Yiew Terminal Help 


nuoline@ubuntu:~5$ hadoop dfsadmin -report 
Configured Capacity: 60778553344 (56.6 GB) 
Prescnt Capacity;: S5406805G60384 [58.35 6B) 
DFS Remaining: S54068376064 (59 .35 6B) 

DFS Used: 184329 (188 KB) 

DFS Used%: 8 

Under replicated blocks: @ 

Blocks with corrupt replicas: 

Missing blocks: 自 


Datanodes avallable: 1 [1 total, 9 dead) 


Name: 177.9.0.1:59919 

Decomm1lission Status : Normal 

configured Capacity: 60778553344 (56.6 GB) 
Used: 184328 【189 KB) 
DFS Used: 67179392968 (6.26 GB) 
Remalning: 54060376064!590.35 GB) 
USEd5: 和 日 先 

FS RemalnlLng 当 : 88.95% 
Last Contatct，5at May ll 22:53:33 POT 29013 


图 4-1 ”一 个 伪 分 布 式 的 HDFS 系 统 的 检查 报告 截图 


在 图 4-1 中 用 户 可 以 看 到 HDFS 的 配置 容量 、 使 用 情况 、 块 信息 等 相关 的 统计 信息 ， 当 然 用 户 也 可 以 直接 使 用 HDFS 的 Web 界 面 来 直观 地 查看 HDFS 和 集群 是 否 运 行 正常 。 


HDFS 作 为 一 个 分 布 式 文件 系统 和 Linux 的 文件 系统 一 样 ， 也 具有 类 似 的 命令 行 接口 ， 所 有 的 命令 均 由 bin/hadoop 肢 本 引发 。 不 指定 参数 运行 Hadoop 脚 本 会 打印 所 有 命令 的 描述 。 
通用 用 法 : 


hadoop [--config confdir] COMMAND 


--config confdir 履 盖 默 认 配 置 目录 ， 默 认 使 用 的 配置 是 ${HADOOP HOMEjconf。 


下 面 将 介绍 HDFS 中 与 用 户 相 关 的 命令 。 


fs shell 是 HDFS 的 调用 文件 系统 shell 命 令 ， 大 多 数 fs shell 命 令 的 行为 和 对 应 的 unix shell 命 令 类 似 ， 不 同 之 处 会 在 下 面 介 绍 各 命令 使 用 详情 时 指出 。 出 错 信 息 会 输出 到 标准 错误 输出 stderr， 其 他 信息 输 
出 到 标准 输出 stdout。 命 令 格 式 如 下 : 


$HADOOP HOME/bin/hadoop fs <args> 


该 命令 使 用 URI 路 径 作为 参数 。URI 格 式 是 authority/path， 对 于 HDFS 文 件 系 统 ，scheme 是 HDFS， 对 应 的 本 地 文件 系统 ，scheme 是 file。 其 中 scheme 和 authority 参 数 都 是 可 选 的 ， 例 如 
HDFS 上 的 /data/app 目 录 ，URL 格 式 为 : 


hdfs:// 


namenode :port/data/app 


未 加 指定 的 scheme 和 和 authority 参 数 就 会 使 用 用 户 Hadoop 客 户 端 conf 下 配置 中 core-site.xml 中 的 fs.default.name 属 性 的 值 指定 ， 本 节 后 续 的 命令 将 使 用 默认 的 schem 和 authority 配 置 ， 启 动 HDF 人 之 
后 可 以 输入 以 下 命令 看 到 使 用 帮助 信息 : 


$HADOOP HOME/bin/hadoop fs --help 


下 面 详细 讲述 具体 的 HDFS fs shell 命 令 。 


1.cat 


将 路 径 指定 文件 的 内 容 输出 到 标准 输出 stdout， 成 功 执行 后 返回 值 为 0， 失 败 则 返回 -1， 使 用 方法 如 下 : 


hadoop 1 


fs -cat URI [URI http://www.hzcourse.com/resource/read] 


Book?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/...] 


例如 ， 将 HDFS 上 的 /data/part-00000 文 件 输出 ，HDFS 主 机 为 host， 端 口 为 port， 命 令 为 : 


hadoop 1 


s -cat hdfs:// host:port/data/part-00000 


当然 用 户 可 以 不 指定 HDFS 的 主机 host 以 及 端口 port， 此 时 默认 使 用 fs.default.name 属 性 指定 的 值 ， 命 令 如 下 : 


hadoop 1 


s -cat /data/part-00000 


打印 本 地 文件 系统 的 文件 /data/file， 命 令 如 下 : 


hadoop 1 


2.|S 


fs -cat file:/// data/part-00000 


和 Linux 中 的 ls 命令 类 似 ， 如 果 是 文件 ， 则 返回 文件 在 HDFS 上 的 信息 ， 返 回 格式 如 下 。 


文件 名 < 副本 数 > 文件 大 小 修改 日 期 修改 时 间 权限 用 


户 工 


D 组 ID 


如 果 是 目录 ， 则 返回 它 直接 子 文件 的 一 个 列表 ， 就 像 在 UNIX 中 一 样 ， 目 录 返 回 列表 的 信息 如 下 : 


目录 名 <qir> 修改 日 期 修改 时 间 权限 用 户 ID 组 I 


fs 命令 格式 为 : 


hadoop 1 


S -ls <args> 


3.chgrp 


改变 文件 所 属 的 组 ， 使 用 方法 如 下 : 


hadoop 1 


s -chgrp [-R] GROUP URI [URI http://www.hzcourse.com/resource/readl 


Book?path=/openresources/teach ebook/uncompressed/15128/0 


EBPS/Text/...] 


使 用 -R 将 使 改变 在 目录 结构 下 的 递归 进行 ， 命 令 的 使 用 者 必须 是 文件 的 所 有 者 或 者 超级 用 户 。 


4.chmod 


改变 文件 的 权限 ， 使 用 方法 如 下 : 


hadoop 1 


站 


fs -chmod [-R] <MODET{,MODE]http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompresseq/15128/ORE 


使 用 -R 将 使 改变 在 目录 结构 下 的 递归 进行 ， 命 令 的 使 用 者 必须 是 文件 的 所 有 者 或 者 超级 用 户 。 


5.chown 


改变 文件 的 拥有 者 ， 使 用 方法 如 下 : 


hadoop fs -chown [-R] [OWNER] |[: [GROUP]] 


UR 


[UR 


BPS/Text/... 


| OCTALMODE 


> UR 


[UR 


http://www.r 


使 用 -R 将 使 改变 在 目录 结构 下 的 递归 进行 ， 命 令 的 使 用 者 必须 是 超级 用 户 。 


6.copyFrom 


Local 


将 本 地 文件 放置 在 HPDFS 上 ， 除 了 限定 源 路 径 是 一 个 本 地 文件 外 和 put 命令 相似 。 


使 用 方法 如 下 : 


hadoop 1 


fs ~copyFromLocal <localsrc> URI 


7.copyToLocal 


将 HDFS 上 的 文件 复制 到 本 地 文件 系统 中 ， 除 了 限定 目标 路 径 是 一 个 本 地 文件 外 和 get 命 令 类 似 。 


使 用 方法 如 下 : 


hadoop fs -copyToLocal [-ignorecrc] [-crc] URI <localdst> 


8.cp 
将 文件 从 源 路 径 复制 到 目标 路 径 ， 这 个 命令 允许 有 多 个 源 路 径 ， 此 时 目标 路 径 必 须 是 一 个 目录 。 执 行 成 功 返 回 0， 失 败 返 回 -1。 


使 用 方法 如 下 : 


hadoop fs -cp URI [URI http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/...] <dest> 


例如 ,将 HDFS 上 的 /data/hadoop/file1 复 制 到 /data/hadoop/file2， 命 令 为 : 


hadoop fs -cp /data/hadoop/filel /data/hadoop/file2 


将 /data/hadoop/file1 和 /data/hadoop/file2 复 制 到 HDFS 的 /data/filedir 目 录 ， 命 令 如 下 : 


hadoop fs -cp /data/hadoop/filel /data/hadoop/file2 /data/filedir 


9.du 


显示 目录 中 所 有 文件 的 大 小 ， 或 者 当 只 指定 一 个 文件 时 ， 显 示 此 文件 的 大 小 ， 成 功 返 回 0; 失败 返回 -1。 使 用 方法 为 : 


hadoop fs -du URI [URI http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/...] 


10.dus 


显示 文件 的 大 小 ， 使 用 方法 如 下 。 


hadoop fs -Qus <args> 


11.expunge 


清空 回收 站 ， 使 用 方法 如 下 : 


hadoop fs -expunge 


12.get 


复制 文件 到 本 地 文件 系统 ， 使 用 方法 如 下 : 


hadoop fs -get [-ignorecrc|] [-crc] <src> <localdst> 


可 用 -ignorecrc 选 项 复制 CRC 校 验 失败 的 文件 。 使 用 -crc 选 项 复制 文件 以 及 CRC 信 息 ， 成 功 返 回 0; 失败 返回 -1。 
13.getmerge 


接受 一 个 源 目录 和 一 个 目标 文件 作为 输入 ， 并 且 将 源 目录 中 所 有 的 文件 连接 成 本 地 的 目标 文件 ， 使 用 方法 如 下 : 


hadoop fs -getmerge <src> <localdst> [addnill] 


参数 addn| 是 可 选 的 ， 用 于 指定 在 每 个 文件 结尾 添加 一 个 换行 符 。 


14.lsr 


ls 命令 的 递归 版 本 ， 类 似 于 UNIX 中 的 ls-R。 使 用 方法 如 下 : 


hadoop fs -lsr <args> 


接受 路 径 指定 的 uri 作 为 参数 ， 创 建 目录 。 其 类 似 于 UNIX 的 mkdir-p， 它 会 创建 路 径 中 的 各 级 父 目录 。 使 用 方法 如 下 : 


hadoop fs -mkdir <paths> 


例如 ， 在 HDFS 上 创建 目录 /user/home/nuoline， 代 码 如 下 : 


hadoop fs -mkdir /user/home/nuoline 


命令 执行 成 功 返 回 0; 失败 返回 -1。 


16.mv 


将 文件 从 源 路 径 移动 到 目标 路 径 ， 使 用 方法 如 下 : 


hadoop fs -mv URI [URI http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/...] 


<dest> 


这 个 命令 


这 个 命令 允许 有 多 个 源 路 径 ， 此 时 目标 路 径 必 须 是 一 个 目录 。 不 允许 在 不 同 的 文件 系统 间 移 动 文件 。 例 如 ,移动 HDFS 上 的 /data/part-00000 和 /data/part-00001 到 目录 /data/dir: 


hadoop fs -mv /data/part-00000 /data/part-00001 /data/dir 
命令 执行 成 功 返 回 0; 失败 返 
17.put 


从 本 地 文件 系统 中 复制 单个 或 多 个 源 路 径 到 目标 文件 系统 中 ， 使 用 方法 如 下 : 


hadoop fs -put <localsrc> http://www.hzcourse.com/resource/readi 


Book?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/... <dst> 


命令 也 支持 从 标准 输入 中 读 取 输 入 并 写 入 目标 文件 系统 ， 命 令 执行 成 功 返 回 0; 失败 返 


18.rm 


删除 指定 的 文件 ， 只 删除 文件 或 者 空 目 录 ， 使 用 方法 如 下 : 


hadoop fs -rm URI [URI http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/...] 


命令 执行 成 功 返 回 0; 失败 返 


19.rmr 


递归 删除 目录 ， 命令 rm 的 递归 版 本 ,会 递归 删除 目录 下 的 各 级 目录 以 及 文件 ， 命 令 执 行 成 功 返回 90， 失败 返回 -1。 使 用 方法 如 下 : 


hadoop fs -rmr URI [URI http://www.hzcourse.com/resource/read] 


Book?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/...] 


20.setrep 


改变 一 个 文件 的 副本 系数 ， 使 用 方法 如 下 : 


hadoop fs -setrep [-R] <path> 


-R 选 项 用 于 递归 改变 目录 下 所 有 文件 的 副本 系数 。 


例如 ， 改 变 目 录 /data/hadoop/dir 的 副本 系数 为 3， 命 令 如 下 : 


hadoop fs -setrep -WwW 3 -R /user/hadoop/dirl 


21.stat 


返回 指定 路 径 的 统计 信息 ， 使 用 方法 如 下 : 


hadoop fs -stat URI [URI http://www.hzcourse.com/resource/readi 


Book?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/...] 


命令 执行 成 功 返回 0; 失败 返 
22.tall 


将 文件 尾部 1KB 字 节 的 内 容 输出 到 stdout， 使 用 方法 如 下 : 


hadoop fs -tail [-f] URI 


支持 -f 选 项 ,行为 和 UNIX 中 一 致 ， 命 令 执行 成 功 返 回 0; 失败 返 
23.test 


使 用 方法 如 下 : 


hadoop fs -test -[ezd] URI 


选项 合 义 如 下 : 


~-e 检 查 文件 是 否 存在 ， 如 果 存 在 则 返回 0 
.-z 检 查 文件 是 否 是 0 字 节 ， 如 果 是 则 返回 0。 
.-q 检 查 路 径 是 否 是 目录 ， 如 果 是 返回 0， 否 则 返回 -1 


24.text 


将 源 文 件 输出 为 文本 格式 ， 使 用 方法 如 下 : 


hadoop fs -text <src> 
允许 的 格式 是 zip 和 TextRecordinputStream， 这 个 命令 也 支持 SequenceFile 文 件 格式 ， 会 将 SequenceFile 文 件 输出 为 text 格 式 。 


25.touchz 


类 似 于 Linux 中 的 touch 命 令 ， 使 用 方法 如 下 : 


hadoop fs -touchz URI [URI http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/...] 


命令 执行 成 功 返 回 0; 失败 返回 -1。 
4.2.2 archive 


用 于 创建 一 个 Hadoop 归 档 文 件 ，Hadoop archive 是 特殊 的 档案 格式 。 一 个 Hadoop archive 对 应 一 个 文件 系统 目录 。Hadoop archive 的 扩展 名 是 *.har。Hadoop archive 中 包含 元 数据 (形式 是 
_index 和 _masterindx) 和 数据 (part-*) 文件 。 index 文 件 包 含 了 档案 文件 的 文件 名 和 位 置信 息 。 


1. 创 建 archive 


使 用 方法 如 下 : 


hadoop archive -archiveName NAME -p <parent path> <src>* <qest> 


命令 参数 选项 描述 ， 如 表 4-1 所 示 。 


表 4-1 archive 参 数 选项 描述 


参数 选项 名 称 功能 摘 述 

archiveName 指定 要 创建 的 档案 的 名 字 

p 是 否 创 建 路 径 中 的 各 级 父 目 录 

src 需要 归档 的 源 目录 ， 可 以 含 正 则 表达 式 的 一 样 
dest 保存 档案 文件 的 目标 目录 


由 -archiveName 选 项 指定 要 创建 的 archive 的 名 字 ， 比 如 nuoline.har。archive 的 名 字 的 扩展 名 应 该 是 *.har。 输 入 的 是 HDFS 文 件 系 统 的 路 径 名 ， 路 径 名 的 格式 和 常规 的 表达 方式 一 样 。 创 建 的 archive 
会 保存 到 目标 目录 下 ， 需 要 注意 的 是 创建 archive 的 一 个 MapReduce job， 应 该 在 MapReduce 集 群 上 运行 这 个 命令 。 


例如 ， 需 要 将 目录 /user/work/dir1 和 /user/work/dir2 归 档 为 work.har， 并 保存 在 目标 目录 /data/search 下 ， 命 令 如 下 : 


hadoop archive -archiveName work.har \ 
/user/work/dirl /user/work/dir2 \ 
/data/search 


在 上 面 的 例子 中 ，/user/work/dir1 和 /user/work/dir2 会 被 归档 到 这 个 文件 系统 /data/search 下 的 work.har 中 ， 当 创建 archive 时 ， 源 文件 不 会 被 更 改 或 删除 。 


2. 查 看 archive 文 件 


archive 作 为 文件 系统 层 暴露 给 外 界 ， 因 此 所 有 的 fs shell 命 令 都 能 在 archive 上 运行 ， 但 是 要 使 用 不 同 的 URI。 另 外 ，archive 是 不 可 改变 的 ， 所 以 重 命名 、 删 除 和 创建 都 会 返回 错误 信息 。Hadoop 
Archives 的 URI 模 式 为 : 


har:// scheme-hostname:port/archivepath/fileinarchive 


如 果 没 提供 scheme-hostname， 它 会 使 用 默认 的 HDFS 文 件 系统 。 在 这 种 情况 下 URI 是 以 下 形式 : 


har:/// archivepath/fileinarchive 


例如 ， 对 于 前 面 创建 archive 中 的 归档 文件 work.har， 要 获得 创建 的 archive 中 的 文件 列表 ， 可 使 用 以 下 命令 : 


hadoop dfs -lsr har:/// data/search/work.har 


查看 archive 中 的 file1 文 件 的 命令 如 下 : 


hadoop dfs -cat har:/// data/search/work.har/dirl/filel 


4.2.3 distcp 


distcp 是 Hadoop 的 分 布 式 复制 命令 ， 是 大 规模 集群 内 部 和 集群 之 间 进 行 复 制 的 工具 。 它 使 用 MapReduce 实 现 文件 分 发 、 错 误 处 理 和 恢复 ， 以 及 生成 报告 。 其 把 文件 和 目录 的 列表 作为 Map 任 务 的 输 
入 ， 每 个 任务 会 完成 源 列 表 中 部 分 文件 的 复制 ， 使 用 方法 如 下 : 


distcp [OPTIONS] <srcurl>* <desturl> 


srcurl 是 源 URI， 可 以 是 带 正 则 表达 式 的 URI，desturl 目 标 为 URI， 下 面 分 别 讲述 这 个 命令 的 使 用 方法 。 


1.Hadoop 集 群 之 间 复 制 数据 


例如 ， 将 集群 NN1 的 数据 目录 /data/logs 复 制 到 集群 NN2 的 /data/logs 目 录 ， 假 设 端口 均 为 9000， 则 在 集群 NN1 上 执行 以 下 命令 : 


hadoop distcp hdfs:// NN1:9000/data/logs hdfs:// NN2:9000/data/logs 


这 条 命令 会 把 NN1 集 群 的 /data/logs 目 录 下 的 所 有 文件 或 目录 名 展开 并 存储 到 一 个 临时 文件 中 ， 这 些 文件 内 容 的 复制 工作 被 分 配给 多 个 Map 任 务 ， 然 后 每 个 TaskTracker 分 别 执行 从 NN1 到 NN2 的 复制 
操作 ， 需 要 注意 的 是 distcp 使 用 绝对 路 径 进行 操作 。 


在 命令 行 中 可 以 指定 多 个 源 目录 ， 例 如， 需要 将 NN1 的 /data/logs/2012 和 /data/logs/2013 复 制 到 NN2 的 /data/logs 中 ， 执 行 命令 如 下 : 


hadoop distcp hdfs:// NN1:9000/data/1logs/2012 \ 
hdfs:// NN1:9000/data/logs/2013 \ 
hdfs:// NN2:9000/data/logs 


或 者 使 用 -f 选 项 ， 从 源 目录 url 中 获得 多 个 源 ， 例 如 NN1 的 /data 下 面 有 一 个 srclist 文 件 ， 内 容 为 hdfs: //NN1: 9000/data/logs/2012 和 //NN1: 9000/data/logs/2013， 则 通过 -f 选 项 进行 多 源 复制 ， 
命令 如 下 : 
hadoop distcp \ 


-f hdfs:// NN1:9000/data/srclist \ 
hdfs:// NN2:9000/data/logs 


当 从 多 个 源 复制 时 ， 如 果 两 个 源 有 冲突 ，distcp 会 停止 复制 并 提示 出 错 信息 ， 如 果 在 目的 位 置 帮 生 冲 突 ， 会 通过 设置 下 面 所 讲 的 选项 来 解决 。 默 认 会 跳 过 已 经 存在 的 目标 文件 〈 比 如 不 用 源 文 件 做 替换 
操作 ) 。 每 次 操作 结束 时 都 会 报告 跳 过 的 文件 数目 ， 但 是 如 果 某 些 复制 操作 失败 了 ， 但 在 之 后 的 尝试 成 功 了 ， 那 么 报告 的 信息 可 能 会 不 够 精确 。 


每 个 TaskTracker 必 须 都 能 够 与 源 和 目的 端 文件 系统 进行 访问 和 交互 对 于 HDFS 来 说 ， 源 和 目的 端 要 运行 相同 版 本 的 协议 或 者 使 用 向 下 兼容 的 协议 。 完 成 复制 后 ， 建 议 生成 源 和 目的 端 文件 的 列表 并 交叉 
人 驳 查 ， 以 便 确 认 复 制 真 正成 功 。 因 为 distcp 使 用 MapReduce 和 文件 系统 API 进 行 操作 ， 所 以 这 三 者 间 有 任何 问题 都 会 影响 复制 操作 。 一 些 distcp 命 令 的 成 功 执行 可 以 通过 再 次 执行 带 -update 参 数 的 该 命令 
来 完成 ， 但 用 户 在 此 操作 之 前 应 该 对 该 命令 的 语法 很 熟悉 。 


值得 注意 的 是 ， 当 另 一 个 客户 端 同时 在 向 源 文 件 写 入 时 ， 复 制 很 有 可 能 会 失败 。 尝 试 覆 盖 HDFS 上 正在 被 写 入 的 文件 的 操作 也 会 失败 。 如 果 一 个 源 文 件 在 复制 之 前 被 移动 或 删除 了 ， 复 制 失败 同时 输出 异 
常 FileNotFoundEXxception。 


我 们 知道 distcp 命 令 有 一 个 OPTIONS 的 命令 参数 选项 ， 其 参数 意义 ， 如 表 4-2 所 示 。 


表 4-2 distcp 的 OPTIONS 的 命令 参数 选项 


参数 选项 名 功能 备注 
复制 号 名 
: 块 大 小 修改 次 数 不 会 被 保留 ， 并 且 当 指定 -update 时 ， 更 新 的 
-plrbugp] 用 PP 状态 不 会 被 同步 ， 除 非 文 件 大 小 不 同 (比如 文件 被 重新 
组 创建 ) 
: 许可 
-p: 单独 使 用 相当 于 prbugp 
个 选项 会 比 默认 情况 提供 更 精确 的 天 于 复制 的 统计 ， 
将 保留 失败 复制 操作 的 日 志 ， 这 些 日 志 信 息 可 
久 略 失败 同时 它 还 交 保留 失败 复制 操作 的 日 志 ， 这 些 日 志 信 息 可 


以 用 于 调试 。 最 后 ， 如 果 一 个 Map 失败 了 ,但 并 没完 成 
所 有 分 块 任务 的 答 试 ， 这 不 会 导致 整个 作业 的 失败 

distcp 为 每 个 文件 的 每 次 尝试 复制 操作 都 记录 日 志 ， 并 
-log <logdir> 记录 日 志 到 <logdir> 目录 | 把 日 志 作 为 Map 的 输出 a -个 Map 失败 了 ， 当 重新 
执行 时 这 个 日 志 不 会 被 保留 

指定 了 复制 数据 时 Map 的 数目 ， 请 注意 并 不 是 Map 数 
越 多 行 吐 量 越 大 

如 果 一 个 Map 失败 且 没 有 使 用 -i 选项 ， 不 仅仅 会 复制 
那些 失败 0 文件 ， 这 个 分 块 任务 中 的 所 有 文件 都 会 被 重 
新 复制 。 它 会 改变 生成 目标 路 径 的 语义 ， 所 以 用 户 要 小 
心 使 用 这 个 选项 


-m <num maps> 同时 复制 的 最 大 数目 


-OVverWwrite 


TE 了 


象 之 前 提 到 的 ， 这 不 是 “同步 ”操作 。 执 行 履 盖 的 唯 

如 果 源 和 目标 的 大 小 不 一 | 一 标准 是 源 文 件 和 目标 文件 大 小 是 否 相 同 ; 如 果 不 同 ， 
人 臻 ， 则 进行 履 新 则 源 文 件 蔡 换 目 标 文 件 。 它 会 改变 生成 目标 路 径 的 语义 ， 
用 户 在 使 用 中 要 小 心 

不 要 使 用 CRC a 查 ， 也 就 是 忽略 FileChecksum 校 验 ， 

-skipcrccheck 不 使 用 CRC 检 考 结合 update 选项 参数 使 用 ， 因 为 版 本 的 升级 可 能 市 来 
Checksum 的 值 不 一 样 

使 用 <urilist uri> 作为 源 文 | 这 等 价 于 把 所 有 文件 名 列 在 命令 行 中 ，urilist_ uri 列表 
件 列表 应 该 是 完整 合法 的 URI 


-update 


Th 


-f <urilist_ uri> 


-filelimit <n> 限制 文件 数 限制 总 的 文件 数码 mn 


-sizelimit <n> 大 小 限制 限制 的 总 大 小 是 < n 字 节 


如 果 文 件 不 在 src 源 目录 中 ,但 是 在 dst 目标 目录 中 ， 
-delete 删除 目标 目录 文件 本 件 不 在 src 源 目录 中 ,但 是 在 dst 目标 目录 和 


-mapredSslConf < 人 使 用 SSL 配置 为 Map 任务 使 用 SSL 配置 的 文件 名 


同时 ，distcp 作 为 Hadoop 的 一 个 通用 命令 还 支持 表 4-3 所 示 的 参数 选项 。 


表 4-3 distcp 通 用 参数 选项 说 明 


参数 选项 名 功能 备注 


-conf <configuration file> 指定 Hadoop 使 用 的 配置 文件 
-D <property=value> 指定 目 定义 的 Hadoop 参数 属性 及 值 
-]t <localljobtracker:port> 指定 JobTtracker 

_ ER 指定 用 逗号 分 隔 的 文件 ， 会 被 分 发 
-files 需要 分 发 的 文件 . nt 

到 集群 中 的 每 人 “任务 运行 节点 

-libjars 多 个 jar 需要 使 用 逗号 分 隔 
-archives 


自 定义 通用 参数 时 的 命令 格式 如 下 : 


hadoop command [genericoptions] [commandOoptions] 


genericOptions 就 是 表 4-3 中 的 参数 ，commandOptions 选 项 就 是 表 4-2 中 的 参数 ，command 就 是 distcp 命 令 。 


分 布 式 复制 涉及 集群 之 间或 者 集群 内 部 的 大 量 数 据 传输 ， 因 此 在 使 用 这 个 命令 时 还 需要 注意 以 下 几 个 问题 


第 一 个 就 是 Map 的 数量 问题 。distcp 会 尝试 着 均 分 需要 复制 的 数据 ， 这 样 每 个 Map 复 制 差 不 多 大 小 相等 的 内 容 。 但 因为 文件 是 最 小 的 复制 粒度 ， 所 以 配置 增加 同时 复制 (如 Map) 的 数目 不 一 定 会 增加 
实际 同时 复制 的 数目 以 及 总 吞吐 量 。 如 果 没 使 用 -m 选 项 ，distcp 会 党 试 在 调度 工作 时 指定 Map 的 数目 min_num， 计 算 公 式 见 式 (4-1) 。 


min num=min (total bytes/bytes.per.map, 20*num task trackers) (4-1) 


其 中 bytes.per.map 默 认 是 256MB， 建 议 对 于 长 时 间 运 行 或 定期 运行 的 作业 ， 根 据 源 和 目标 集群 大 小 、 复 制 数量 大 小 ， 以 及 带宽 调整 Map 的 数目 。 


第 二 个 问题 就 是 不 同 HDFS 版 本 间 的 复制 问题 。 对 于 不 同 Hadoop 版 本 间 的 复制 ， 用 户 应 该 使 用 HftpFileSystem。 这 是 一 个 只 读 文 件 系 统 ， 所 以 distcp 必 须 运行 在 目标 端 集群 上 (更 确切 地 说 是 在 能 够 写 
入 目标 集群 的 TaskTracker 上 ) ， 源 的 格式 是 hftp://<dfs.http.address>/<path> (默认 情况 dfs.http.address 是 <namenode>: 50070) 。 


第 三 个 问题 就 是 分 布 式 复 制 的 负 效应 问题 。Map 复 制 输入 文件 失败 时 ， 会 带 来 一 些 副 效应 ， 具 体 的 负 效 应 如 下 : 


:除非 使 用 了 -:i， 任 务 产生 的 日 志 会 被 新 的 尝试 蔡 换 掉 。 
:除非 使 用 了 -overwrite， 文 件 被 之 前 的 Map 成 功 复制 后 ， 当 又 一 次 执行 复制 时 会 被 标记 为 "被 忽略 “。 
:如 果 Map 失 败 了 mapredq.map.max.attempts 次 ， 剩 下 的 Map 任 务 会 被 终止 《除非 使 用 了 -=-i) 。 


:如 果 mapred.speculative .execution 被 设置 为 final 和 true， 则 复制 的 结果 是 未 定义 的 。 


以 上 这 些 副作用 在 具体 使 用 distcp 命 令 时 需要 格外 注意 。 


4.2.4 fsck 


fsck 是 HDFS 文 件 系 统 的 检查 工具 。 当 用 户 发 现 HDFS 上 的 文件 可 能 受 损 时 ， 可 以 使 用 这 个 命令 进行 检查 ,使 用 方法 如 下 : 


hadoop fsck <path> \\ 
[-move | -delete | -openforwrite] \ 
-files [-blocks [-locations | -racks]]] 


mr 一 


fsck 命 令 的 参数 选项 使 用 说 明 ， 如 表 4-4 所 示 。 


表 4-4 ”fsck 命令 的 参数 选项 使 用 说 明 


参数 选项 名 功能 备注 
<path> 检查 的 起 始 目 录 
-move 移动 受 损 文件 到 /lost+found 
-delete 删除 受 损 文件 
-openforwrite 打印 出 写 打开 的 文件 
-files 打印 出 正 被 检查 的 文件 
-blocks 打印 出 块 信息 报告 
-locations 打印 出 每 个 块 的 位 置信 息 


4.3 ”HDFS Java API 的 使 用 方法 


4.2 节 详细 介绍 了 HDFS 相 关 的 命令 行 接口 ， 由 于 HDFS 是 GFS 的 Java 开 源 实 现 ， 因 此 功能 最 全 的 自然 就 是 通过 Java AP| 来 操作 HDFS 了 ， 本 节 讲 述 HDFS 相 关 的 Java API 的 使 用 方法 。 


4.3.1 Java API 简 介 


用 户 在 使 用 HDFS 的 Java APl 之 前 需要 了 解 两 个 和 HDFS 读 写 等 操作 最 为 密切 的 Hadoop 包 : org.apache.hadoop.fs 和 org.apache.hadoop.conf。fs 包 主要 是 文件 系统 的 抽象 ， 可 以 理解 为 支持 多 种 文 
件 系统 实现 的 统一 文件 访问 接口 ; conf 用 于 读 conf 包 ， 就 是 读 取 系统 配置 ， 它 依赖 于 fs 包 ， 主 要 是 在 读 取 配 置 文件 的 时 候 需 要 使 用 文件 系统 ， 而 部 分 文件 系统 的 功能 在 fs 包 中 被 抽象 了 。 对 于 Hadoop 用 户 


来 讲 ， 要 使 用 HDFS 来 对 文件 进行 读 、 写 、 删 除 等 操作 就 需要 了 解 fs 包 中 的 相关 类 和 API 接 口 。 用 户 需 要 使 用 的 相关 API 接 口 说 明 ， 如 表 4-5 所 示 。 


表 4-5 fs 中 相关 API 接 口 的 说 明 


fs 中 相关 的 API 接口 功能 描述 
Configuration 提供 Hadoop 参数 配置 的 访问 
BufferedFSInputStream 通过 绥 冲 优化 该 取 FSInputStream 的 类 
封装 了 文件 系统 中 文件 或 者 目录 的 元 数据 信息 ， 包 括 文人 
FileStatus ee 
修改 时 间 、 所 有 者 以 及 许可 信息 /已 、 
FileSystem 一 个 非常 通用 的 文件 系统 抽象 基 类 
FileUtil 文件 处 理 的 通用 方法 类 
a 包含 其 他 文件 系统 的 类 ， 可 以 作为 一 个 基本 的 文件 系统 人 
FilterFileSystem ee 
的 文件 操作 功能 
FSDataInputStream HDFS 文件 输入 流 ， 继 承 了 DataInputStream 
FSDataOutputStream HDFS 文件 输出 流 ， 继 水 了 DataOutputStream 
IOUtils 封装 了 所 有 与 输入 /输出 相关 的 通用 田 数 类 ， 包 括 谈 、 写 、 


下 面 将 讲述 如 何 通过 这 些 API 接 口 来 访问 HDFS。 


4.3.2 读 文件 


这、 抉 大 小 、 副 本 、 


朋 常 提供 一 些 御 外 


数据 复制 等 


假如 有 一 个 文件 hdfs_read _test.txt， 首 先 使 用 Hadoop 命 令 将 其 放 在 HDFS 上 ， 路 径 为 hdfs://localhost:9000/data/4/hdfs_read_test.txt， 然 后 分 别 使 用 两 种 接口 来 读 取 这 个 文件 。 


1. 调 用 java.net.URL 


最 简单 直接 的 方法 就 是 调用 java.net.URL 类 获得 一 个 输入 流 ， 然 后 通过 IOUtils 来 操作 输入 流 对 HDFS 上 的 文件 进行 读 取 。 使 用 这 个 方法 的 同时 还 需要 配合 使 用 在 URLStreamHandlerFactory 实 例 上 调用 


的 setURLStreamHandlerFactory 方 法 ， 这 样 才能 让 Java 识 别 HDFS 的 URI 路 径 。 核 心 示例 代码 如 下 : 


static { 
URL. setURLStreamHandlerFactory (new FsUrlStreamHandlerFactory ()); 
} 


InputStream in = new URL("hdfs:// localhost:9000/data/4/hdfs read test.txt"). 
openstream(); 
// do something for in 


IOUtils.closeStream(in); 


2. 调 用 FileSystem 类 
我 们 知道 ，Filesystem 类 是 一 个 非常 通用 的 文件 系统 抽象 基 类 ， 可 以 通过 这 个 类 获得 Filesystem 对 象 ， 然 后 通过 open() 方 法 获得 输入 流 FSDatalnputstream 对 象 ， 使 用 流 对 象 来 读 取 HDFS 上 的 这 个 文 


件 。 在 FileSystem 类 中 有 两 种 静态 方法 可 以 获得 FileSystem 类 对 象 。 
‘public static FileSystem get (Configuration conf) 


Configuration 对 象 封 装 了 一 个 客户 端 或 服务 器 的 配置 ， 默 认 的 配置 是 加 载 conf/core-site.xml， 并 返回 默认 文件 系统 ， 默 认 文件 系统 在 conf/core-site.xml 中 设置 ， 一 般 就 是 HDFS， 如 果 没 有 设置 过 ， 


则 是 本 地 文件 系统 。 


‘public static FileSystem get (URI uri, 


Configuration conf) 


这 个 方法 会 根据 传 入 的 完整 的 URI 来 确定 返回 的 文件 系统 类 型 ， 在 没有 指明 的 情况 下 返回 默认 文件 系统 。 


然后 就 可 以 使 用 open() 方 法 得 到 输入 流 FSDatalnputstream 对 象 ， 方 法 也 有 以 下 两 种 : 


public FSDataInputStream open (path f£) 
public abstract FSDataInputStream open(Path f, int bufferSize) 


第 一 种 方法 会 默认 使 用 4KB 的 缓冲 大 小 ; 第 二 种 方法 可 以 指定 缓冲 大 小 。 
需要 注意 的 是 open() 方 法 返回 FSDatalnputStream 类 对 象 ， 这 个 类 是 java.io.DatalnputStream 的 一 个 子 类 ， 它 支持 随机 访问 ,能 从 流 中 任意 位 置 读 取 数据 。 为 了 能 深入 了 解 FSDatalnputStream,， 可 


以 看 一 下 其 类 图 ， 如 图 4-2 所 示 。 
从 图 4-2 中 可 以 看 出 ，FSDatalnputStream 类 实现 了 Seekable 接 口 ， 以 及 PositionedReadable 接 口 ， 因 此 实现 了 随机 查找 以 及 读 取 的 方法 。 下 面 介绍 经 常会 使 用 的 方法 。 


(1) getPos() 方 法 


public Long getPos () 
throws IOException 


getPos() 用 于 查询 当前 位 置 相 对 于 文件 开始 处 的 偏 移 量 。 
(2) read() 方 法 


public int read(long Positiony 
byte[] buffer, 

int offset, 

int lengtnh) 

throws IOException 


<<Lnresolved Class>> 
Datalnputstream 


<<(Lonstructor> FesDatalnputstream (Inputstream Im) 
seek (long desired) : VOId 
getPos () : long 
read (long position, byte buffer[], int offset, int length ) : Int 
readFully (long position, byte buffer{], int offset, int length) : void 


readFully (long position, byte buffer{]) : VDIG 
seekToNewSource (long targetPos,) : boolean 


<<LUnresolved Interface>> 
SeEekable 


<=<Ljnresolved Interace>> 
o— PogtlionedReadable 


<< jnresolvegd Interlface>> 
Gloseable 


图 4-2 ”FSDatalnputStream 类 图 
从 文件 给 定 的 位 置 开 始 读 取 指定 长 度 length 的 字 节 数 到 字 节 数组 buffer 中 ， 并 返回 读 取 的 字 节 数目 ， 此 方法 不 会 改变 文件 当前 的 偏 移 量 ， 是 安全 的 函数 。 


(3) readFully0 方 法 


public void readFully (long position, 
byte[] buffer) 
throws IOException 


从 文件 给 定 的 位 置 读 取 buffer 长 度 的 字 节 数 到 字 节 buffer 中 ， 该 方法 不 会 改变 当前 文件 的 偏 移 量 ， 是 安全 的 函数 。 


(4) readFully0 重 载 方法 


public void readFully (long position, 
byte[] buffer, 


int offset, 
int lengtnh) 
throws IOException 


从 文件 给 定 的 位 置 读 取 给 定 长 度 length 字 节 到 字 节 数组 buffer 中 ， 该 方法 不 会 改变 当前 文件 的 偏 移 量 ， 是 安全 的 函数 。 


(5) seek() 方 法 


public void seek (long desired) 
throws IOException 


从 文件 的 开始 搜索 到 给 定 的 偏 移 量 ， 下 一 个 read() 遂 数 将 从 该 位 置 偏 移 开 始 读 取 。 


(6) seekToNewSource() 方 法 


public boolean seekToNewSource (long targetPos) 


throws IOException 


寻求 不 同 的 数据 副本 ， 如 果 发 现 一 个 新 的 来 源 ， 返 回 true， 否 则 返回 false。 此 方法 在 用 户 的 应 用 程序 中 并 不 常用 ， 此 方法 用 来 切换 到 数据 的 另 一 个 副本 并 在 新 的 副本 中 找寻 targetPos 指 定 的 位 置 。 
HDFS 内 部 就 采用 此 方法 在 数据 节点 出 现 故 障 时 为 客户 端 提 供 可 靠 的 数据 输入 流 。 


至 此 与 文件 的 读 操作 相关 的 函数 接口 就 介绍 完了 ， 下 面 通过 一 个 简单 的 测试 例子 来 说 明 如 何 读 取 文 本 文件 hdfs_read _test.txt， 以 下 代码 的 功能 是 从 HDFS 上 读 取 一 个 文本 文件 ， 然 后 输出 到 标准 输出 。 


package book.hdfs; 
import java.net.URI; 
import org.apache.hadoop.conf.Conf?iguration; 
import org.apache.hadoop.fs.FSDataInputStream; 
import org.apache.hadoop.fs.FileSystem; 

import org.apache. hadoop.fs.Path; 
import org.apache.hadoop.io.IOUtils; 
public class HdfsReadTest { 


public static void main(String[] args) throws Exception { 
String uri = args[0]; 
Configuration conf = new Configuration(); 


FileSystem hadfs FileSystem.get (URI.create (uri), conf); 
FSDataInputStream in = null; 


in = hdfs.open (new Path (uri)); 

byte buffer[] new byte[256] ; 

int bytesRead = 0; 

while( (bytesRead = in.read(buffer)) > 0) { 
System.out .write (buffer, 0, bytesRead); 
} 

} finally { 

IOUtils.closeStream (in); 

} 

} 


从 上 述 代 码 中 可 以 看 到 ， 首 先 通过 Configuration 类 得 到 一 个 配置 对 象 onf， 其 默认 会 读 取 Hadoop 中 的 conf/core-site.xml 文 件 ， 从 中 得 到 HDFS 的 地 址 以 及 端口 号 (当然 也 可 以 由 用 户 在 URI 参 数 中 指 
定 ) ， 然 后 通过 FileSystem 的 get 函 数 获 取 FileSystem 类 的 对 象 hdfs， 通 过 hdfs 对 象 的 open 消 数 就 可 以 获得 输入 流 FSDatalnputStream 对 象 ， 通 过 read 函 数 就 可 以 对 输入 流 进行 读 取 操作 ， 在 这 里 用 户 也 可 
以 通过 IOUtils 中 的 函数 对 输入 流 进行 操 作 。 


在 编译 的 时 候 建 议 用 户 将 程序 打包 为 jar 文 件 ， 例 如 将 上 述 Java 代 码 编译 打包 为 HdfsTestjar， 然 后 通过 Hadoop 命 令 就 可 以 执行 ， 命 令 如 下 : 


hadoop jar HdfsTest.jar book.hdfs.HdfsReadTest \\ 
/data/4/hdfs read test.txt 


需要 注意 的 是 /user/search/hdfs_read test.txt 是 HDFS 的 路 径 ， 这 里 省 略 了 URI 的 scheme 和 authority 信 息 ， 此 时 会 从 用 户 配置 的 core-site.xml 中 获得 具体 的 scheme 和 authority 信 息 。 也 可 以 指定 具 
体 的 HDFs 的 NameNode 信 息 ， 命 令 如 下 : 


hadoop jar HdfsTest.jar book.hdfs.HdfsReadTest \\ 
hdfs:// localhost:9000/data/4/hdfs read test.txt 


hdfs://locahost:9000 就 是 HDFS 的 scheme 和 authority 信 息 ， 用 户 可 在 具体 执行 时 换 为 自己 的 HDFS 集 群 信息 。 
4.3.3” 写 文件 


4.3.2 节 讲述 了 如 何 读 取 HDFS 上 的 文件 ， 本 节 将 介绍 如 何在 HDFS 上 创建 文件 以 及 写 文 件 操 作 ， 通 常 我 们 需要 先 通 过 FileSystem 类 获得 HDFS 文 件 系统 对 象 ， 然 后 通过 FileSystem 对 象 的 create() 方 法 获取 
输出 流 FSDataOutputstream 类 的 对 象 ， 有 了 输出 流 对 象 就 可 以 通过 write() 国 数 或 者 IOUtils 中 的 函数 进行 写 文 件 操作 。 


在 FileSystem 中 ， 和 写 文件 相关 的 重要 方法 有 两 个 : create0 和 append() 方 法 ， 这 两 种 方法 都 有 好 几 个 重 载 函 数 ， 这 里 仪 仅 介 绍 几 个 常用 的 。 


(1) create() 方 法 


public FSDataOutputStream create (Path 工 ) 
throws IOException 


根据 输入 路 径 打开 一 个 输出 流 FsDataOutputstream 对 象 ， 如 果 文 件 存 在 则 默认 会 覆盖 ， 因 此 用 户 在 调用 时 最 好 先 判断 文件 是 否 存在 。 当 然 还 有 另 一 个 接口 可 以 指定 是 否 覆 盖 ， 代 码 如 下 : 


public FSDataOutputStream create (Path f, 
boolean overwrite) 
throws IOException 


如 果 用 户 要 写 入 一 个 很 大 的 文件 ， 往 往 需 要 程序 可 以 有 反馈 写 入 进度 ， 这 时 可 以 调用 以 下 接口 : 


public FSDataOutputStream create (Path f, 
Progressable progress) 
throws IOException 


此 方法 也 会 覆盖 已 经 存在 的 文件 ， 同 时 用 户 需要 实现 progress() 函 数 ， 最 简单 的 进度 报告 轴 数 示例 如 下 : 


public void progress() { 
System.out .Print(".") 7 


每 一 次 64KB 的 数据 被 写 入 DataNode 的 pipeline 之 后 就 会 调用 一 次 progress() 来 报告 写 入 进度 。 


同时 对 于 重要 的 文件 用 户 还 可 以 在 打开 输出 流 时 指定 复制 因数 ， 方 法 如 下 : 


public FSDataOutputStream create (Path f, 
short replication) 
throws IOException 


在 默认 情况 下 HDFS 的 复制 因数 是 3， 但 是 对 于 非常 重要 的 文件 可 以 指定 更 大 的 复制 因数 ， 同 样 这 个 方法 是 默认 覆盖 已 经 存在 的 文件 的 。 


对 于 同时 要 求 不 覆盖 、 需 要 进度 报告 以 及 复制 因数 的 用 户 ， 可 以 调用 以 下 接口 : 


public FSDataOutputStream create (Path f, 
boolean overwrite, 
int bufferSize, 
short replication, 
ong blockSize, 
Progressable progress) 
throws IOException 


create() 函 数 参 数 说 明 ， 如 表 4-6 所 示 。 


表 4-6 cteate0 函数 的 参数 说 明 


sh 
上 
MN 


摘 述 


f 写 和 人 或 创建 文 的 HDFS 路 径 
overwrite 如 条 文件 存在 是 否 履 六 
bufferSize 写 入 时 使 用 的 缓冲 buffer 大 小 
replication 文件 的 复制 因数 


参 数 名 描 述 


blockSize 指定 文件 的 块 大 小 
progress 进度 报告 


(2) append() 方 法 


append() 方 法 允许 一 个 写 入 者 打开 已 有 文件 并 在 其 末尾 追加 写 入 数据 ， 其 有 三 个 重 载 冰 数 ， 先 简要 说 明 第 一 个 重 载 函 数 : 


public abstract FSDataOutputStream append (Path f, 
int bufferSize, 
Progressable progress) 
throws IOException 


向 一 个 在 HDFS 上 已 经 存在 的 文件 追加 数据 ，append0 函 数 的 参数 说 明 ， 如 表 4-7 所 示 。 


表 4-7 append0 坊 数 的 参数 说 明 


参 数 名 换 述 


f 需要 人 退 加 文件 的 HDFS 路 径 
bufferSize 瑟 入 时 使 用 的 绥 冲 buffer 大 小 
progress 进度 报告 


还 有 另外 两 个 重 载 图 数 ， 其 中 一 个 如 下 : 


public FSDataOutputStream append (Path 工 ) 
throws IOException 


这 个 重 载 国 数 相当 于 调用 append(f，getConf(0.getlnt('io.file.buffer.size"，4096)，nu 册 国 数 。 


男 一 个 重 载 消 数 如 下 : 


public FSDataoutputStream append (Path fs 
int bufferSize) 
throws IOException 


这 个 重 载 遂 数 相当 于 调用 append(f，bufferSize，nul) 函 数 。 
通过 使 用 create0 或 者 append() 函 数 可 以 得 到 文件 输出 流 FSDataOutputStream 的 对 象 ， 最 终 的 写 文件 就 是 通过 FSDataOutputStream 的 对 象 进行 操作 的 ， 其 类 图 如 图 4-3 所 示 。 


从 图 4-3 中 可 以 看 出 ，FSDataOutputStream 继 承 了 java.io.DataOutputStream， 实 现 了 Syncable( 接 口 ， 通 过 write(0) 函 数 就 可 以 对 HDFS 上 的 文件 进行 写 入 操作 。 下 面 通 过 一 个 示例 来 说 明 如 何在 
HDFS 上 写 入 一 个 文件 ， 这 个 例子 的 功能 是 从 本 地 文件 系统 读 取 一 个 文件 ， 然 后 在 HDFS 上 创建 一 个 文件 并 写 入 读 取 的 数据 。 其 代码 如 下 : 


<<Unresolved Class>> 


DataOutputStream 


FSDataOutputStream 
- WrappedStream : OutputStream 


FSDataOutputStream (OutputStream out) 
FSDataOutputStream (OutputStream out, org.apache.hadoop.fs.FileSystem.Statistics stats) 


<<Constructor>> 


<<Constructor>> 
<<Constructor>> 


<<Constructor>> 


<<Constructor>> 


月 PositionCache 


FSDataOutputStream (OutputStream out, org.apache.hadoop.fs.FileSystem.Statistics stats, 
long startPosition) 


FSDataOutputStream (OutputStream out, org.apache.hadoop.fs.FileSystem.Statistics stats) 


FSDataOutputStream (OutputStream out, org.apache.hadoop.fs.FileSystem.Statistics 
stats, long startPosition) 


getPos () 


close () 


: |ong 
: void 


getWrappedStream () : OutputStream 


Sync () 


: voId 


package book.hdfs; 


import 
jmpor 
impor 


impor 
impor 


impor 


t org.apache.hadoop. 
jmpor 


t org.apache.hadoop. 


t java.io.IOFException; 
t org.apache.hadoop.conf. 
t org.apache.hadoop. 
jmpor 
t org.apache.hadoop. 


fs. 
fs. 
fs. 


fs 。 


t org.apache.hadoop. 


fs. 
t org.apache.hadoop.util.Progressable; 
public class HdfsWriteTest { 


nfiguration; 


taOutputSstre 


public static void main(String[] arg 


Configuration conf = new Conf 
FileSystem 


local = FileSystem. St Oca (og 


FileSystem hdf 


taInputSstream; 


am’ 


<<Unresolved lnterface>> 


Syncable 


图 4-3 FSDataOutputStream 类 图 


S) throws IOException { 


figuration (); 


S 二 get (conf 


Path localdir = = new Path (arg 
Path hdfsFi] 


try 1 
FileStatus 


for (int i=0; 


[] 
FSDataOutputStream out = hdf 
Pub] 


e 三 


inputFiles = local.listStatus (1 


new Path (arg 


AN 


sS[0]) 7 
s[1]); 


s.create (hdfsFi] 


nf); 


OCalLdir)? 
e,new Progressable() { 


ic void progress() { 


i< 


System.out.p 
} 


InputEI ees. 


System.out .Println 


a me 


FSDatalnput 


tstream in = local 


byte buffer [| 


int bytesRead = 0; 


while( (byt 


out .Write (buff 


} 


in.close(); 


} 


out .ClLose 人 


) 


} catch ( 


OFException e) 1 


e.printStackTrace () ; 


} 
} 


Pit (Vy) 


length; i++) { 
.getPath () .getName () ); 


.open (inputFiles[il] .getPath ()); 


= mew Bee [dl] 


tesRead = in.read(buffer)) > 0) { 
er, 0, bytesRead); 


从 上 述 代码 中 可 以 看 到 ， 首 先 FileSystem 的 方法 getLocal 获 取 本 地 文件 系统 的 对 象 ， 然 后 通过 get() 方 法 获得 HDFS 文 件 系 统 对 象 ， 通 过 FileStatus 类 可 以 得 到 本 地 文件 系统 目录 下 所 有 的 文件 信息 。 在 这 
个 例子 中 ， 调 用 了 create(Path f，Progressable progress) 方 法 获得 输出 流 ，progress( 实 现 为 每 写 入 64KB 打 印 一 个 点 号 来 显示 写 入 进度 。 同 样 ， 需 要 将 编译 后 的 class 文 件 打 包 为 jar 包 ， 这 里 名 字 还 是 
HdfsTest.jar， 执 行 命令 如 下 : 


hadoop jar HdfsTest.jar book.hdfs.HdfsWriteTest localdir \ 
/data/4/hdfs write test.txt 


localdir 是 本 地 文件 系统 的 目录 ， 该 目录 下 有 需要 写 入 HDFS 的 文件 ，/data/4/hdfs_write_test.txt 是 HDFS 上 的 要 写 入 的 文件 路 径 ， 和 读 取 文件 一 样 ，HDFS 的 路 径 可 以 指定 HDFS 的 NameNode 信 息 。 


4.3.4 删除 文件 或 目录 


在 HDFS 上 删除 一 个 文件 或 者 目录 是 非常 容易 的 ， 用 户 可 以 直接 使 用 Hadoop fs shell 命 令 进行 删除 ， 在 程序 中 可 以 直接 调用 Filesystem 的 delete() 函 数 ， 说 明 如 下 : 


public abstract boolean aelete (Path f, 
boolean recursive) 
throws IOException 


参数 f 是 需要 删除 的 文件 或 者 目录 的 HDFS 路 径 ， 当 人 是 一 个 文件 或 者 空 的 目录 时 ， 参 数 recursive 会 被 忽略 ， 也 就 是 可 以 指定 为 true 或 者 false， 当 删除 的 是 一 个 目录 且 目 录 下 非 空 时 ， 需 要 指定 参数 
recursive 为 true， 否 则 会 抛 出 IOException 异 常 。 删 除 文件 比 较 简 单 ， 这 里 就 不 再 举例 说 明了 。 


4.4 “接口 libhdfs 


4.4.1 libhdfs 介 绍 


libhdfs 是 HDFSs 的 一 个 基于 JNI 的 C 语 言 API 接 口 ， 它 提供 了 一 个 简单 的 C 语 言 应 用 程序 接口 AP1， 通 过 libhdfs 可 以 使 用 C/C+ + 语言 来 操作 HDFS。 需 要 注意 的 是 libhdfs 中 的 国 数 是 通过 JNI 调 用 Java 虚 拟 
机 (简称 JVM) ， 在 虚拟 机 中 构造 对 应 的 HDFs 的 Java 类 ， 然 后 反射 调用 该 类 的 功能 国 数 。 总 会 发 生 JVM 和 程序 之 间 内 存 复 制 的 动作 ， 因 此 在 大 规模 使 用 时 需要 考虑 其 性 能 方面 的 问题 。 


4.4.2 ”编译 与 部 署 


Hadoop 发 行 版 已 经 包括 了 编译 好 的 libhdfs 库 ， 但 是 由 于 编译 平台 往往 很 难保 证 ， 建 议 在 使 用 libhdfs 的 时 候 重新 编译 构建 。 可 以 直接 使 用 ant 进 行 编译 ， 即 进入 Hadoop 的 安装 目录 ， 执 行 以 下 命令 进行 
编译 构建 : 


ant -Dcompile.c++=true -Dlibhdfs=true compile-c++-1Libhdqfs 


需要 注意 的 是 ， 编 译 的 机 器 需要 连接 网 络 ， 在 执行 编译 时 会 下 载 很 多 依赖 库 ， 编 译 后 会 根据 编译 环境 的 JVM 版 本 是 32 位 还 是 64 位 来 确定 编译 后 的 版 本 ， 默 认 会 在 Hadoop 根 目录 下 的 build/c+ + 目录 下 
生成 相应 的 libhdfs 版 本 。 


接 下 来 就 需要 部 署 刚才 编译 的 libhdfs 库 ， 如 果 用 户 的 编译 环境 是 32 位 的 ， 则 编译 后 在 SHADOOP_HOME/build/c+ + 目录 下 生成 Linux-i386-32; 如 果 编 译 环 境 是 64 位 的 ， 则 生成 Linux-amd64-64， 将 
其 中 lib 下 的 libhdfs 库 复制 到 $HADOOP_HOME/c++ 下 的 相应 lib 中 。 然 后 还 需要 配置 一 下 环境 变量 ， 需 要 添加 的 环境 变量 ， 如 表 4-8 所 示 。 


表 4-8 libhdfs 环 境 变 量 说 明 
参 数 名 搓 述 
HADOOP HOME Hadoop 客户 端 安装 日 录 环 境 变 量 
JAVA HOME JDK 环境 变量 


sr 


一 

AN 

Vi 
Te 


参 数 名 描 述 


CLASSPATH 需要 包括 Java 的 类 库 以 及 Hadoop 类 库 
LD LIBRARY PATH 需要 指明 libhdfs 以 及 libjvm 动态 库 路 径 


可 以 对 CLASSPATH 环 境 变量 进行 以 下 配置 : 


# 配 置 Java 的 CLASSPATH 
export \ CLASSPATH= .:SURAVA HOME/1lib/dt.jar:$JAVA HOME/1ib/tools.jar 
# 添 加 Hadoop 核 心 库 到 CLASSPATH 一 
for f in SHADOOP HOME/hadoop-core-*.jar; do 

CLASSPATH=$ {CLASSPATH} : $f; 


done 
# 添 加 Hadoop 的 依赖 库 到 CLASSPATH 

For f in SHADOOP HOME/1ib/*.jar; do 
CLASSPATH=$ {CLASSPATH} : $f; 


done 


可 以 对 LD_LIBRARY_PATH 进 行 以 下 配置 : 


export LD LIBRARY PATH=$HADOOP HOME/c++/Linux-i386-32/1ib:\ 
SJAVA HOME/jre/lib/i386/client:$LD LIBRARY PATH 


export CLASSPATH==.:$JAVA HOME/lib/dt.jar:\ 
SJAVA HOME/1lib/tools.jar 


由 于 libhdfs 是 基于 JNI 的 ， 因 此 需要 配置 CLASSPATH 以 及 LD_LIBRARY_PATH。 这 里 的 测试 系统 环境 是 32 位 ， 因 此 这 里 配置 了 i386 目 录 ; 如 果 系 统 是 64 位 ， 则 要 配置 相应 的 目录 。 


4.4.3 ”libhdfs 接 口 介绍 


在 使 用 libhdfs 之 前 ， 我 们 需要 先 了 解 一 下 其 基本 的 对 外 接口 ， 这 里 介绍 其 中 比较 常用 的 几 个 。 


1. 建 立 与 关闭 HDFS 连 接 


在 使 用 HDFS 时 ， 首 先 束 要 和 HDFS 建 立 通信 连接 ， 有 两 个 消 数 接口 用 于 建立 连接 ， 第 一 个 接口 的 定义 如 下 : 


hdfsFS hdfsConnectAsUser (const char* host, 
tPort port, const char *user) 


参数 host 是 HDFS 集 群 NameNode 节 点 的 IP 地 址 或 者 主机 名 ， 如 果 连 接 的 是 本 地 文件 系统 ， 则 赋值 为 NULL， 或 者 设置 为 default， 同 时 将 port 设 置 为 0%， 这 种 情况 下 系统 会 读 取 配 置 文件 core-site.xml 
或 者 core-default.xml 中 的 配置 来 进行 识别 。port 就 是 HDFS 对 外 服务 的 监听 端口 号 ;User 就 是 要 指定 的 Hadoop 用 户 名 ， 可 以 设置 为 NULL， 此 时 相当 于 调用 另外 的 连接 函数 hhdfsConnect(host，port)。 


成 功 连接 后 会 返回 一 个 filesystem 的 句柄 ， 失 败 则 返回 NULL。 


第 二 个 接口 的 定义 如 下 : 


hdfsFS hdfsConnect (const char* host, tPort port) 


其 中 参数 的 意义 和 第 一 个 接口 一 样 ， 相 当 于 调用 hdfsConnectAsUser(const char*host，tPort port，NULD， 同 样 成 功 连接 后 会 返回 一 个 filesystem 的 句柄 ， 失 败 则 返回 NULL。 


关闭 连接 函数 的 定义 如 下 : 


int hdfsDisconnect (hdfsFS fs) 


传 入 参数 时 filesystem 的 句柄 就 是 建立 连接 的 返回 值 。 


2. 打 开 与 关闭 HDFS 文 件 


在 和 HDFS 建 立 连接 之 后 就 可 以 调用 打开 文件 函数 来 对 HDFs 中 的 文件 进行 读 写 访问 。 打 开 HDFS 文 件 的 函数 接口 定义 如 下 : 


hdfsFile hdfsOpenFile (hdfsFS fs, const char* path, int flags, 
int bufferSize, short replication, tSize blocksize); 


各 参数 含义 说 明 ， 如 表 4-9 所 示 。 


表 4-9 hdfsOpenFile 函 数 的 参数 说 明 


fs 建立 连接 后 返回 的 文件 系统 句柄 

path 要 打开 文件 的 HDFS 完全 路 径 

flags 文件 标志 位 ， 具 体 取 值 包括 : O RDONLY, O WRONLY, O WRONLY, O_APPEND 
bufferSize 谈 写 缓冲 区 大 小 ， 设 置 为 0 则 使 用 HDFS 系统 默认 配置 

replication 文件 块 的 复制 因数 ,设置 为 0 则 使 用 HDFS 系统 默认 配置 

blocksize 文件 块 的 大 小 ， 设 置 为 0 则 使 用 HDFS 系统 默认 配置 


HDFSs 文 件 打开 成 功 则 返回 打开 文件 的 句柄 ， 失 败 则 返回 NULL。 


在 读 写 文件 操作 之 后 还 需要 关闭 文件 ， 该 函数 的 定义 如 下 : 


int hdfsCloseFile (hdqfsFS fs, hdfsrFile file) 


图 数 参数 中 的 fs 是 建立 HDFS 的 文件 系统 句柄 ; file 是 打开 的 文件 句柄 。 关 闭 文件 成 功 返 回 0， 失 败 返 回 -1。 


3.HDFS 文 件 读 写 


在 打开 HDFS 上 的 文件 后 就 可 以 开始 读 写 操作 。 读 取 函 数 有 两 个 ， 第 一 个 函数 的 定义 如 下 : 


tSize hdfsRead (hdfsFS fs, hdfsrile file, void* puffer, tSize length) 


函数 参数 说 明 ， 如 表 4-10 所 示 。 


表 4-10 hdfsRead 函 数 的 参数 说 明 


参 数 名 描述 


fs 就 是 建立 连接 后 返回 的 文件 系统 句柄 
file 条 开 HDFS 文件 的 句柄 

buffer 浇 文 件 时 复制 谈 字 节 的 缓冲 区 
length 涝 写 缓冲 区 长 度 


用 户 在 读数 据 时 还 可 以 指定 开始 读 取 文 件 的 位 置 ， 其 函数 定义 如 下 : 


tSize hdfsPread (hdqfsFS fs, hdfsrile file, tOffset position, 
void* puffer, tSize length) 


position 参 数 指明 从 文件 的 什么 位 置 读 取 数 据 ， 其 他 参数 和 hdfsRead 的 意义 相同 。 
这 两 个 读 取 函数 在 成 功 执行 后 会 返回 实际 读 取 的 字 节 数 ， 失 败 返 回 -1。 


接 下 来 介绍 写 函 数 ， 其 定义 如 下 : 


tSize hdfsWrite (hdfsFS fs, hdfsFile file, const void* puffer, 
tSize length) 


写 函 数 的 参数 意义 和 读 函 数 参数 的 意义 一 样 ， 成 功 写 入 后 国 数 会 返回 实际 写 入 的 字 节 数 ， 失 败 则 返回 -1。 


在 写 入 文件 后 最 好 调用 flush 函 数 ， 定 义 如 下 : 


int hdfsrFlush (hdqfsFS fs, hdfsrile file) 


成 功 执行 flush 函 数 之 后 返回 0， 失 败 则 返回 -1。 


4.HDFS 文 件 查询 


在 实际 应 用 中 我 们 往往 需要 对 HDFS 上 的 文件 进行 相关 的 查询 操作 ， 例 如 判断 文件 是 否 存 在 、 获 取 文 件 路 径 信 息 、 文 件 读 写 偏 移 量 、 数 据 所 在 HDFS 节 点 信息 等 。 下 面 简要 介绍 与 其 相关 的 函数 。 


判断 文件 是 否 存在 的 hdfsExists 函 数 的 定义 如 下 : 


int hdfsExists (hdfsFS fs, const char *path) 


文件 存在 返回 0， 不 存在 返回 -1。 


探寻 文件 偏 移 的 hdfsSeek 函 数 的 定义 如 下 : 


int hdfsSeek (hdfsFS fs, hdfsFile file, tOffset desiredPos) 


这 个 函数 仅仅 在 追加 文件 时 对 只 读 模式 起 作用 ， 成 功 返 回 0， 失 败 则 返回 -1。 


得 到 文件 的 当前 偏 移 量 的 hdfsTell 函 数 的 定义 如 下 : 


toffset hdfsTell (hdqafsFS fs, hdfsrFile file) 


成 功 时 返回 当前 文件 偏 移 量 ， 出 现 错误 时 返回 -1。 


获得 文件 所 在 节点 信息 的 hdfsGetHosts 函 数 的 定义 如 下 : 


Charxxx hdfsGetHosts (hdfsFS fs, const char* path, 
toffset start, toOffset length) 


参数 path 是 文件 路 径 ; start 是 文件 块 的 起 始 偏 移 ;，length 是 块 的 长 度 。 调 用 这 个 遂 数 会 返回 数据 块 所 在 的 主机 列表 ， 它 是 一 个 二 维 数组 ， 由 于 HDFS 本 身 拥有 元 余 复 制 机 制 ， 会 存在 单个 数据 块 在 多 个 
主机 分 布 的 情况 。 


5. 复 制 和 删除 
在 HDFS 命 令 行 中 可 以 很 容易 地 删除 文件 并 进行 复制 ， 同 样 可 使 用 libhdfs 也 可 以 使 用 C/C++ 语言 进行 此 类 操作 。 


复制 函数 hdfsCopy 的 定义 如 下 : 


int hdfsCopy (hdafsFS srcFS, const char* src, haqfsFS aqstFS， 
const char* dst) 


hdfsCopy 函 数 的 参数 说 明 ， 如 表 4-11 所 示 。 


表 4-11 hdfsRead 函 数 的 参数 说 明 


参 数 名 朱 述 


参 
STCFS 源 文件 系统 句柄 
srC 源 文件 路 径 
dstFS 目标 文件 系统 句柄 
dst 目标 文件 路 径 


删除 函数 的 hdfsDelete 定 义 如 下 : 


int hdfsDelete (hafsFS fs, const char* Path) 


fs 为 要 删除 的 HDFS 上 的 文件 系统 句柄 ; path 是 要 删除 的 文件 路 径 。 删 除 成 功 返 回 9， 失 败 返 回 -1。 


除了 上 述 五 种 带 用 的 接口 函数 之 外 ，libhdfs 还 提供 了 很 多 相关 操作 ， 包 括 重 命名 、 目 录 操 作 ， 以 及 设置 文件 块 大 小 、 复 制 因子 等 。 


4.4.4 libhdfs 使 用 举例 


4.5.1 


4.4.3 节 对 libhdfs 的 常用 函数 接口 进行 了 简介 ， 本 节 使 用 libhdfs 的 常用 遂 数 接口 对 HDFS 上 的 文件 进行 操作 。 为 了 说 明 具 体 的 使 用 方法 这 里 举 一 个 简单 的 HDFS 写 文件 例子 进行 分 析 和 描述 。 


#include "hd 


ES 


int main(int argc char **argv) { 


hdfsFS fs = hdfsConnect ("default", 0);) 
const char* writePath = "test write file.txt"; 
hdfsFile writeFile = hdfsOpenrile(fs, writePath, O WRONLY|O CREAT, 0, 0, 0); 
if(!Iwriterile) { 
Fprintf (stderr, "Failed to open %s for writing!\n", writePath); 
exit (-1) ， 
} 
char* buffer = "Hello, libhdfs api!"; 


tSize num written bytes = hdfsWrite (fs, writeFile, (void*)buffer, 


strlen (buffer) +1); 


if (hdfsF] 


ush (fs, writeFile)) { 


fprintf (stderr, "Failed to "flush' %s\n", writePath); 


exit (-1); 


hdfsCloseFile (fs, writeFile); 


然后 进行 编译 ，makefile 文 件 如 下 : 


# 设 置 Hadoop 安 装 目 录 


HADOOP HO 


EE =/home/nuoline/hadoop-1.0.4 


PLATFORM=Linux-i386-32 


#Java 环 境 变量 


JAVA HOME=/home/nuoline/jdk1.6.0 33 


CPPFLAGS= 


HOL 


TB = -L$ 


—IS 


FE) /include/linux 


# 需 要 包含 的 头 文件 
(HADOOP HOME)/src/c+t+/libhdfs \ -1S$ (JAVA HOME)/include -I$ (JAVA 


(HADOOP INSTALL) /build/c++/Linux-i386-32/1lib -lhgdfs 


#1ibhdfs 静 态 库 


十 


1ibjvm 的 动态 链接 库 


libjvm= $JAVA HOME/jre/lib/i386/client/1ibjvm.so 


testHdfs: 


gcc 


clean: 
rm 


Les 


testHdfs.c $(CPPFLAGS) $ (LIB) $ (libjvm) -o testHdfs 


tHAfS GC 


Les 


tHdfs 


在 写 makefile 文 件 中 需要 指定 Hadoop 的 安装 目录 路 径 HADOOP_HOME，Java 环 境 变量 ， 由 于 libhdfs 是 基于 JNI 的 ， 所 以 Java 的 头 文件 在 哪 也 需要 告诉 编译 器 ， 并 指明 libhdfs 静 态 库 和 |libjvm 的 动态 链 


接 库 路 径 。 


完成 makefile 文 件 之 后 就 可 以 直接 使 用 make 命 令 进行 程序 编译 了 ， 需 要 注意 的 是 ， 在 执行 程序 时 会 出 现 “Unable to load native-hadoop library for your 


platformhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/...using builtin-java classes where applicable” 的 错误 提示 ， 这 


是 由 于 Hadoop 的 本 地 库 不 存在 ， 或 者 本 地 库 与 当前 系统 的 版 本 不 一 致 导 致 的 ， 用 户 需要 在 自己 的 系统 平台 上 重新 编译 一 个 ， 进 入 $HADOOP_HOME 目 录 下 ， 执 行 以 下 命令 进行 编译 : 


ant compile-native 


编译 完成 后 ， 可 以 在 SHADOOP_HOME/build/native 目 录 中 找到 相应 的 文件 ， 然 后 指定 文件 的 路 径 或 者 移动 编译 好 的 文件 到 默认 目录 中 即 可 。 


4.5 ”WebHDFs 授 口 


WebHDFS REST API 人 简介 


WebHDFS REST APl 是 为 HDFS 提 供 HTTP 协 议 的 文件 系统 接口 的 ， 即 HDFS 的 HTTP REST APIl， 使 用 WebHDFS 可 以 通过 HTTP 协 议 来 访问 HDFS， 具 有 简便 、 快 捷 ， 以 及 通过 HTTP 直 接 传输 数据 的 特 


WebHDFS 支 持 的 操作 ， 如 表 4-12 所 示 。 


表 4-12 WebHDFS 支 持 的 操作 


WebHDFS 支持 的 


人 操作 命令 与 描述 
操作 类 一 
OPEN 打开 文件 ， 功 能 同 FileSystem.open 
GETFILESTATUS 得 到 文件 状态 信息 ， 功 能 同 FileSystem.getFileStatus 
1 出 文件 或 者 目录 的 相关 信息 ， 功 能 同 FileSystem. 
T ISTSTATUS 列 1 文件 或 者 目录 的 相关 人 功能 同 JewysSteIn 
listStatus 
得 到 目录 的 相关 信息 ， 功 能 同 FileSystem.getContent- 
Ee 得 到 目录 的 相关 信 功能 同 FileSystem.getConten 
Summary 
niPGEl 
得 到 :的 校 验 信 息 ， 功 能 同 FileSystem.getFile- 
op 得 到 文件 的 校 验 信 功能 同 FileSystem.getFile 
Checksum 
返回 当前 用 户 的 主 目录 ， 形 如 /user/$SUSER/， 功 能 后 
ree 返回 当前 用 户 的 主 目录 形 如 /user/$ 功能 后 
FileSystem.getHomeDIirectory 
获得 一 个 代理 令 牌 ， 功 能 同 FileSystem.getDelegation- 
GETDELEGATIONTOKEN 人 
Token 
CREATE 创建 以 及 写 文 件 ， 功 能 同 FileSystem.create 
MKDIRS 创建 目录 ， 功 能 同 FileSystem.mkdirs 
RENAME 重 命 名 文件 或 者 目录 ， 功 能 同 FileSystem.rename 
设置 文件 的 复制 因数 ， 功 能 同 FileSystem.setRepli- 
i 入 置 文件 J 复制 因数 ， 功 能 同 FileSystem.setRepli 
cation 
wide 设置 文件 的 所 有 者 权限 ， 功 能 同 FileSystem. 
HIlPPUT setOwner 
SETPERMISSION 设置 目录 权限 ， 功 能 同 FileSystem.setPermission 
SETTIMES 设置 文件 的 访问 时 间 ， 功 能 同 FileSystem.setTimes 
续 订 代理 令 牌 功能 同 DistributedFileSystem. - 
RENEWDELEGATIONTOKEN Di tn ens 
DelegationToken 
消 代 理 令 牌 ， 功 能 同 DistributedFileSystem. ]- 
CANCELDELEGATIONTOKEN | ”取消 代 理 令 牌 ， 鸡 能 同 DistributedFileSystem.cance 
DelegationToken 
HTTP POST APPEND 给 文件 追加 数据 ， 功 能 同 FileSystem.append 
HTTP DELETE DELETE 删除 文件 ， 功 能 同 FileSystem.delete 


从 表 4-11 中 可 以 看 出 ，WebHDFSs 几 乎 支持 所 有 的 与 HTTP 请 求 相关 的 操作 ， 通 过 这 些 操 作 可 以 便捷 地 使 用 Web 访 问 HDFS。 除 了 GET 中 的 OPEN 操 作 ，WebHDFs 对 于 所 有 的 请 求 都 返回 一 个 JSON 格 式 
的 响应 ，OPEN 操 作 返回 的 是 一 个 8 字 节 流 。 


4.5.2 ”WebHDF9 配 置 


要 使 用 WebHDFS， 还 需要 对 HDFS 系 统 进行 相应 的 配置 。 需 要 注意 的 是 ，WebHDFS 是 Hadoop-1.0.x 以 及 之 后 的 版 本 所 支持 的 功能 。 需 要 进行 配置 的 参数 以 及 参数 说 明 ， 如 表 4-13 所 示 。 


表 4-13 WebHDFS 配 置 的 参数 说 明 


参 数 名 参数 意义 说 明 
dfs.webhdfs.enabled 是 否 局 用 webhdfs 功能 ，true 或 者 false 
dfs.web.authentication.kerberos.principal 在 HTTP 冰点 使 用 Hadoop 的 Kerberos 验证 机 制 


在 HITP 端点 使 用 Hadoop 的 Kerberos 验证 ， 使 用 有 凭据 的 Kerberos 


dfs.web.authentication.kerberos.keytab i 
密 钥 表 文 件 


在 进行 WebHDFS 配 置 时 至 人 少 应 该 配置 dfs.webhdfs.enabled 参 数 。 用 户 可 以 在 hdfs-site.xml 配 置 文 件 中 增加 这 个 参数 ， 配 置 示例 如 下 : 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/... 
<property> 
<name>dfs .webhdfs .enabled</name> 
<value>true</value> 
</property> 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/... 


完成 这 个 配置 之 后 重启 HDFS 集 群 就 可 开启 WebHDFS 功 能 。 


4.5.1 和 4.5.2 节 对 于 WebHDFS API 以 及 集群 配置 进行 了 简要 的 介绍 ， 本 节 将 讲述 如 何 使 用 WebHDFS 接 口 。 在 使 用 时 需要 指定 WebHDFS 的 相应 URI 模 式 ， 在 这 里 用 户 需要 搞 清 楚 HDFS 的 URI、 
WebHDFS URI 以 及 相应 的 HTTP URI， 这 三 者 的 关系 说 明 ， 如 表 4-14 所 示 。 


表 4-14 WebHDFS URI 模 式 说 明 


参 数 名 参数 意义 说 明 
WebHDFS URI webhdfs://<HOST>:<HTTP PORT>/<PATH> 
HDFS URI hdfs://<HOST>:<RPC PORT>/<PATH> 
LRE http://<HOST>:<HTTP PORT>/webhdfs/v1l/<PATH>?op=... 


从 表 4-14 中 可 以 看 出 WebHDFS URI、HDFS URI 和 相应 的 HTTP URL 的 关系 ， 在 WebHDFS 中 我 们 需要 使 用 的 是 相应 的 HTTP URL 模 式 。 


下 面 将 使 用 crul 命 令 行 工具 来 讲述 如 何 使 用 WebHDFS， 如 果 用 户 没 有 curl 工 具 ， 可 以 先进 行 安装 ， 在 Ubuntu 下 进行 安装 的 命令 如 下 。 


sudo apt-get install curl 


现在 就 可 以 先 体 验 一 下 WebHDFS， 如 果 用 户 想 要 查看 位 于 HDFS 上 /user/nuoline/test_ webhdfs.txt 的 文件 信息 ， 可 以 使 用 GET 中 的 LISTSTATUS 操 作 ， 使 用 curl 工 具 的 命令 如 下 : 


curl -i "http:// localhost:50070/webhdfs/vli/user/nuoline/test webhdfs.txtuser. 
name=nuoline&op=LISTSTATUS" 


WebHDFS 的 返回 响应 ， 如 图 4-4 所 示 。 


nuolineS@ubuntu: ~ 


File Edit VIew Terminal Help 


nuoline@ubuntuyu:~$ curl -i "http:/ /localhost:50070/webhdfs/yl/user/nuoline/test W 
=bhdfs.txtr?user.name=nuoline&op=LISTSTATUS" 和. 
HTTPAL.1 2808 OK 

content-Type: application/]son 

Expires: Thuyu, 81-Jan-1978 80:80:900 GMT 

SeBL-COUKJLe: hadoop.auth="u=nuollnegp=nuol lnesgt=slmp leGe=130893907242476&5=5e8L1L5TBO 


nfhrDbJKKYHrDftofI2c=" ;Path=/ 
content-Length: 235 
Server: Jetty(6.1.26) 


{"Filestatuses":{"Filestatus":| 
{"accessilme":1368954557784,"blockSsize":67198864,"group"”:"sUupergroup"”," Length":2 
5, "modificationTime":1368954557784, "owner":"nuoline","pathsuffix":"","permlssion 
": "644","replication":], "type":"FILE"} 

j++ 


图 4-4 WebHDFS 中 LISTSTATUS 操 作 返 回 的 响应 


从 图 4-4 中 就 可 以 看 到 ，LISTSTATUS 操 作 返 回响 应 是 一 个 JSON 格 式 ， 包 括 HTTP 头 信息 都 可 以 得 到 ， 用 户 也 可 以 直接 通过 浏览 器 进行 测试 。 下 面 将 通过 几 个 方面 来 讲述 WebHDFS 的 使 用 。 


当 安 全 机 制 为 启用 时 ， 认 证 用 户 可 以 通过 user.name 参 数 指定 用 户 名 来 进行 身份 验证 ， 如 果 这 个 参数 没有 设置 服务 器 ， 要 设置 认证 用 户 为 默认 的 Web 用 户 ， 否 则 会 返回 错误 响应 。 当 安全 机 制 启用 时 ， 
身份 验证 会 通过 Hadoop 的 代理 令 牌 或 者 Kerberos SPNEGO 起 作用 。 如 果 在 代理 查询 参数 中 设置 了 令 牌 ， 认 证 用 户 就 是 令 牌 中 的 编码 用 户 ; 如 果 没 有 设置 ， 用 户 将 通过 Kerberos SPNEGO 来 进行 身份 认 
证 。 


使 用 culr 命 令 工具 的 示例 如 下 。 


在 安全 机 制 关 闭 的 情况 下 ， 可 以 通过 user.name 指 定 用 户 ， 命 令 格式 如 下 : 


Curl -i "http:// <HOST>:<PORT>/webhdfs/v1/<PATH> [user.name=<USER>&]op=http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/.. 


在 安全 机 制 开启 的 情况 下 ,使 用 Kerberos SPNEGO 进 行 身份 验证 ,命令 格式 如 下 : 


Curl -i --negotiate -~u : "http:// <HOST>:<PORT>/webhdfs/v1/<PATH>op=http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/..." 


在 安全 机 制 开启 的 情况 下 ,使 用 Hadoop 代 理 令 牌 进行 认证 ,命令 格式 如 下 : 


curl -i "错误 ! 超 链 接 引 用 无 效 。" 


以 上 命令 中 HOST 参 数 就 是 HDFS 的 NameNode 信 息 ，HDFS 上 默认 的 HTTP 端 口 为 50070， 如 果 用 户 自 定义 设置 了 这 个 端口 号 ， 则 使 用 自 定义 的 即 可 。 


2. 代 理 


当 启 用 代理 用 户 功能 时 ， 一 个 代理 用 户 A 或 许 提交 一 个 请 求 在 男 一 个 用 户 B 行 为 上 。 除 非 在 身份 认证 中 提交 一 个 代理 令 牌 ， 否 则 B 用 户 的 用 户 名 必须 在 dosa 查 询 参 数 中 进行 设置 。 


和 用 户 B 的 信息 必须 在 代理 令 牌 中 编码 。 


在 安全 机 制 没有 开启 的 情况 下 的 一 个 代理 请 求 的 示例 如 下 : 


curl -i http:// <HOST>:<PORT>/webhd 
doas=<USER>&op=http://www.hzcourse.com/resource/read 


fs/v1/<PATH> [user .name=<USER>E&] 
Book?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/... 


在 开启 安全 机 制 的 情况 下 ， 使 用 Kerberos SPNEGO 进 行 认证 的 请 求 ， 示 例如 下 : 


Curl -i --negotiate -u : "http:// <HOST>:<PORT>/webhdfs/ 


V1/<PATH>doas=<US] 


ER>&op=http://www.hzcourse.com/resource/readI 


Book?path=/openresources/teach ebook/uncompressed/15128/O0EBPS/Text/..." 


在 安全 机 制 开 启 情况 下 ， 使 用 Hadoop 代 理 令 牌 进行 代理 的 请 求 如 下 : 


curl -i "http:// <HOST>:<PORT>/webhd: 


3. 文 件 和 目录 操作 


fs/v1/<PATH>delegation=<TOK 


EN>&op=http://www.hzcourse.com/resource/readI 


在 此 将 讲述 如 何 使 用 WebHDFS 接 口 通 过 HTTP 协 议 来 对 文件 和 目录 进行 相关 的 操作 。 文 件 和 目录 的 相关 操作 比较 多 ， 这 里 仅 对 比较 常用 的 几 种 操作 进行 介绍 。 


(1) 创建 和 瑟 文 件 


创建 文件 使 用 CREATE 命 令 完成 ， 然 后 就 可 以 向 创建 的 文件 写 入 数据 ， 需 要 以 下 两 个 步骤 完成 。 


步骤 1 提交 一 个 HTTP 的 PUT 请 求 在 HDFS 上 创建 一 个 文件 ， 命 令 格式 如 下 : 


curl -i -X PUT "http:// <HOST>:<PORT>/webhd 
te=<true|false>] [&blocksize=<] 


fs/v1/<PATH>op=CREATE [ &overwri 
LONG>] [&replication=<SHORT>] 


[&permission=<OCTAL>] [&buffersize=<INT>]" 


上 面 的 命令 成 功 返回 307， 并 给 出 文件 所 在 的 具体 DataNode 的 WebHDFS URI， 形 如 : 


错误 ! 超 链接 引用 无 效 。 


DataNode 就 是 刚才 创建 的 文件 具体 所 在 的 数据 节点 主机 。 


步骤 2 使 用 步骤 1 中 反馈 文件 所 在 的 位 置 WebHDFS URI 提 交 另 一 个 HTTP 的 PUT 请 求 ， 从 而 将 本 地 文件 写 入 HDFS,， 命令 格式 如 下 : 


curl -i -X PUT -T <LOCAL FILE> ' 


V1/<PATH>op=CREATEhNttp://www.hzcourse.com/resource/readl 


‘nttp:// <DATANODE>:<PORT>/webhdfs/ 


UU 


Book?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/..." 


成 功 执行 后 会 返回 一 个 HTTP 响 应 码 201， 并 通过 WebHDFS URI 给 出 文件 的 HDFS 路 径 。 


(2) 追加 操作 


向 HDFS 上 已 经 存在 的 文件 追加 数据 可 以 使 用 APPEND 


命令 完成 ， 需 要 以 下 两 个 步骤 来 完成 。 


步骤 1 提交 一 个 追加 操作 APPEND 的 HTTP 的 POST 请 求 ， 可 以 指定 缓冲 大 小 ， 命 令 格 式 如 下 : 


curl -i -Xx POST 错误 ! 超 链 接 引 用 无 效 。 


这 个 请 求 将 被 重 定向 到 | 数据 文件 所 在 的 DataNode 以 追加 数据 ， 成 功 执行 后 返回 HTTP 响 应 码 为 307， 并 给 出 文件 所 在 DataNode 的 WebHDFS URI。 


步骤 2 ”用 户 使 用 步骤 1 中 返回 文件 所 在 DataNode 的 WebHDFS URI 再 提交 一 个 HTTP 的 POST 请 求 将 本 地 一 个 文件 追加 到 HDFS 上 的 文件 中 ， 命 令 格式 如 下 。 


Curl -i -X POST -T <LOCAL FILE> "http:// <DATANODE>:<PORT>/webhdfs/ 


V1/<PATH>op=APPENDNttp://www.hzcourse.com/resource/read! 


成 功 追 加 后 返回 HTTP 响 应 码 为 200。 


(3) 打开 并 读 取 文件 


Book?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/..." 


假如 需要 通过 HTTP 打 开 一 个 文件 并 读 取 内 容 ， 可 以 使 用 GET 请 求 中 的 OPEN 命 令 完成 ， 命 令 格 式 如 下 : 


curl -i -L "http:// <HOST>:<PORT>/webhdl 
[&length=<LONG>] [&buf 


这 


http:// <DATANODI 


E>:<PORT>/webhdi 


fs/v1/<PATH>op=OPI 


fs /v1/<PATH>op=OPEN [&offset=<LONG>] 
fersize=<INT>]" 


这 个 请 求 会 返回 文件 所 在 的 DataNoede 的 WebHDFS URI， 形 如 : 


ENhttp://www.hzcourse.com/resource/read 


i 


Book?path=/openresources/teach ebook/uncompressed/15128/0OE 


Book?path=/openresources/teach ebook/uncompressed/15128/0OE 


BPS/Text/... 


然后 客户 端 通 过 这 个 WebHDFS URI 就 可 以 使 用 HTTP 协 议 对 HDFS 上 这 个 文件 进行 读 取 操作 。 


除了 上 面 三 种 带 用 的 文件 和 目录 的 操作 之 外 ， 还 有 表 4-12 所 列 的 所 有 操作 ， 其 命令 的 使 用 方法 相似 ， 仅 需要 将 WebHDFS URI 中 的 参数 op 的 值 改 为 相应 的 操作 名 即 可 。 


4.5.4 WebHDFs 错 误 


响应 和 查询 参数 


i 


在 这 种 情况 下 ， 用 户 A 


BPS/Text/.. 


用 户 在 使 用 WebHDFS 时 也 会 出 现 操作 错误 ， 当 错误 出 现时 服务 端 会 抛 出 异常 ， 这 种 错误 响应 也 是 以 JSON 模 式 给 出 的 ， 并 且 在 RemoteException 中 定义 ， 其 响应 异常 映射 的 HTTP 响 应 码 对 照 表 ， 如 表 
4-15 所 示 。 


表 4-15 响应 异常 映射 的 HITP 响 应 码 对 照 表 


WebHDFS 异常 类 型 HTTP 响应 码 
Illegal AreumentException 400 Bad Request 
UnsupportedOperationException 400 Bad Request 
SecurityException 401 Unauthorized 
IOException 403 Forbidden 
FileNotFoundException 404 Not Found 
RumtimeException $500 Internal Server Error 


从 表 4-15 中 就 可 以 清晰 地 看 出 WebHDFS 异 常 类 型 到 HTTP 响 应 码 的 映射 。 
在 使 用 WebHDFS 时 最 核心 的 内 容 是 WebHDFS URI 中 查询 参数 的 使 用 ， 对 其 使 用 的 查询 参数 的 总 结 ， 如 表 4-16 所 示 。 


表 4-16 WebHDFS URI 中 的 查询 参数 
参数 名 句法 
] 


文件 或 者 目录 的 访 国 风 
blocksize 文件 的 块 大 小 long 让 这 pm 任何 整数 

. 系统 上 
buffersize 传输 数据 缓存 大 小 | int 后 这 于 洲 任何 整数 


_ 详 见 encodeToUrlString() 
delegati 理 令 Stri 2 编码 仿 睡 
en ES Wy decodeFromUrlString(String) 
RENAME 中 的 日 FileSystem 
destination es Path 2 任何 有 效 的 Path 
ER 王 何 有 效 毕 
] 


group 用 户 组 名 任何 有 效 的 组 名 | 任何 String 


或 null 
» 允 或 3 小 本 或 
modificationtime 了 录 的 修改 人 任何 整数 


offset 起 始 的 字 节 位 置 | long | 0 | >0 | 任何 整数 
op 要 执行 的 操作 名 任何 有 效 操作 名 | 任何 字符 串 


日 不 于 六 pp 
owner 记者 i 空 任何 有 效用 户 名 | 任何 字符 串 


A 


参数 名 _ 旬 法 
站 


permission 八 进 秆 正六 类 


recursive 
renewer String 
replication 站 . 出 因数 系统 配置 
在 操作 中 使 用 的 代 

token . i 
理 今 牌 


USeI.NAane 


4.6 小结 


本 章 从 HDFS 用 户 的 角度 讲述 了 HDFS 的 使 用 ， 首 先 介 绍 了 单独 的 HDFS 测 试 环境 准备 ， 然 后 对 HDFS 相 关 命 令 进行 了 详细 介绍 ， 命 令 包括 调用 文件 系统 fs shell、Hadoop 归 档 archive、 分 布 式 集群 复制 
distcp， 以 及 HDFS 检 查 工具 fsck， 而 HDFS 管 理 员 相关 命令 将 在 后 续 Hadoop 运 维 中 进行 详细 介绍 ;接着 对 HDFS 的 Java API 编 程 进行 了 介绍 ， 并 对 读 、 写 、 删 除 操作 进行 了 举例 说 明 。 除 此 之 外 ， 还 介绍 了 
HDFS 的 C 语 言 接口 libhdfs 的 使 用 和 HTTP 协 议 的 WebHDFS 的 使 用 方法 。 通 过 对 本 章 的 阅读 和 学 习 ， 用 户 能 对 HDFS 的 使 用 有 一 个 全 面 的 了 解 。 


第 5 章 MapReduce 计 算 框 架 


通过 前 几 章 的 内 容 介绍 我 们 已 经 认识 了 Hadoop， 并 对 Hadoop 中 的 分 布 式 文件 系统 HDFs 的 原理 和 使 用 有 了 深入 的 了 解 。Hadoop 另 一 个 重要 的 核心 组 件 就 是 MapReduce 计 算 框架 ， 它 是 Google 提 出 
的 一 种 并 行 计算 模型 ， 用 于 大 规模 数据 集 (通常 大 于 1TB 级 以 上 ) 的 并 行 运算 。 这 种 计算 模型 的 核心 概念 是 “Map (映射 ) ”和 “Reduce ( 归 约 ) ”， 探 本 溯源 ， 这 种 思想 是 从 函数 式 编 程 语 言 与 矢量 编程 
语言 借鉴 而 来 的 。 用 户 需要 指定 一 个 Map 阔 数 ， 用 来 把 一 组 键 值 对 映射 成 一 组 新 的 键 值 对 ， 并 指定 并 发 的 Reduce 六 数 用 来 合并 所 有 的 具有 相同 中 间 key 值 的 中 间 value 值 。 


现实 世界 中 的 很 多 问题 ， 包 括 简单 计算 任务 、 海 量 输入 数据 、 集 群 计算 环境 等 ， 例 如 分 布 grep、 分 布 排序 、 单 词 计 数 、Web 连 接 图 反 转 、Web 访 问 日 志 分 析 、 倒 排 索 引 构 建 、 文 档 聚 类 、 机 器 学 习 、 基 
于 统计 的 机 器 翻译 等 ， 这 些 问题 的 解决 最 终 都 可 以 归结 为 Map 和 Reduce 步 又 ， 因 此 MapReduce 模 型 是 一 个 通用 的 并 行 计算 框架 ，Hadoop 就 实现 了 Google 的 这 种 MapReduce 计 算 模 型 。 本 章 将 详细 讲述 
Hadoop MapReduce 的 实现 原理 和 工作 机 制 。 


5.1 Hadoop MapReduce 简 介 
Hadoop MapReduce 是 一 个 使 用 简捷 的 软件 框架 ， 是 Google 云 计算 模型 MapReduce 的 Java 开 源 实现 ， 基 于 它 写 出 来 的 应 用 程序 能 够 运行 在 由 上 干 台 普通 机 器 组 成 的 大 型 集群 系统 中 ， 并 以 一 种 可 靠 
的 、 容 错 的 方式 并 行 处 理 上 T 级 别 的 数据 集 。 


一 个 MapReduce 作 业 通 常会 把 输入 的 数据 集 切 分 为 若干 独立 的 数据 块 ， 由 Map 任 务 以 完全 并 行 的 方式 处 理 。 该 框架 会 对 Map 的 输出 先进 行 排序 ， 然 后 把 结果 输出 作为 Reduce 任 务 的 输入 。 通 常 作业 的 
输入 和 输出 都 会 被 存储 在 文件 系统 中 。 整 个 框架 负责 任务 的 调度 和 监控 ， 以 及 重新 执行 已 经 失败 的 任务 。 


MapReduce 框 架 和 分 布 式 文件 系统 是 运行 在 一 组 相同 的 节点 上 的 ， 也 就 是 说 ， 计 算 节 点 和 存储 节点 通常 在 一 起 。 这 种 配置 允许 框架 在 那些 已 经 存 好 数据 的 节点 上 高 效 地 调度 任务 ， 从 而 使 整个 集群 的 
网 络 带 宽 被 高 效 地 利用 。 


在 系统 架构 上 ， 相 比 于 P2P 的 计算 模型 ，MapReduce 框 架 是 一 种 主 从 架构 ， 由 一 个 单独 的 JobTracker 节 点 和 多 个 TaskTracker 节 点 共同 组 成 。JobTracker 是 MapReduce 的 Master， 负 责 调度 构成 一 个 
作业 的 所 有 任务 ， 这 些 任务 分 布 在 不 同 的 TaskTracker 节 点 上 ，Master 监 控 它 们 的 执行 ， 重 新 执行 已 经 失败 的 任务 。TaskTracker 是 MapReduce 的 Slave， 仅 负责 运行 由 Master 指 派 的 任务 执行 。 


对 用 户 来 讲 ， 应 用 程序 至 少 应 该 指明 输入 和 输出 的 位 置 路 径 ， 并 通过 实现 合适 的 接口 或 抽象 类 来 提供 Map 和 Reduce 函 数 。 再 加 上 其 他 作业 的 参数 ， 就 构成 了 作业 配置 。 然 后 ，Hadoop 的 作业 客户 端 提 
交 作业 (jar 包 或 可 执行 程序 等 ) 和 配置 信息 到 作为 Master 的 JobTracker，JobTracker 负 责 分 发 用 户 程序 和 配置 信息 给 集群 中 的 TaskTracker， 以 及 调度 任务 并 监控 它们 的 执行 ， 同 时 提供 状态 和 诊断 信息 给 
作业 客户 端 。 


在 编写 MapReduce 程 序 方面 ， 可 以 直接 调用 Java API 接 口 ， 也 可 以 通过 Pipes 接 口 使 用 C/C++ 编写 并 行程 序 ， 还 可 以 调用 Streaming 接 口 使 用 任何 可 以 操作 标准 输入 /输出 的 计算 机 编程 语言 来 编写 
MapReduce 应 用 程序 。 


5.2 ”MapReduce 模 型 


5.2.1 MapReduce 编 程 模型 


通过 5.1 节 的 内 容 介 绍 ， 我 们 已 经 了 解 了 MapReduce 模 型 的 基本 处 理 思想 ， 利 用 MapReduce 来 编写 程序 时 仅仅 需要 使 用 两 个 辆 数 来 表达 计算 ， 那 就 是 Map 和 Reduce， 每 个 国 数 都 是 利用 一 个 输入 
key/value 键 值 对 集合 来 产生 一 个 输出 的 key/value 键 值 对 集合 。 对 于 Map 函 数 ， 处 理 输 入 的 键 值 对 ， 并 且 产 生 一 组 中 间 的 键 值 对 。 Os a 收 集 所 有 相同 的 中 间 键 值 的 键 值 对 ， 并 且 发 送 给 Reduce 
函数 进行 处 理 。 对 于 Reduce 函 数 ， 它 处 理 中 间 键 值 对 ， 以 及 与 这 个 中 间 键 值 相关 的 值 集合 。 此 遂 数 合并 这 些 值 ， 最 后 形成 一 个 相对 较 小 的 值 集合 。 通 常 一 个 单 次 Reduce 执 行 会 产生 0 个 或 者 1 个 输出 值 。 传 
递 给 Reduce 函 数 的 中 间 值 是 通过 一 个 迭代 器 来 完成 的 ， 这 就 使 我 们 可 以 处 理 超过 内 人 容 量 的 值 列表 。 


MapReduce 编 程 模型 可 以 说 是 运作 在 键 值 对 上 ， 对 用 户 来 讲 最 重要 的 就 是 Map 和 Reduce 函 数 ， 其 编程 模型 ， 如 图 5-1 所 示 。 


如 图 5-1 所 描述 的 ， 输 入 数据 存储 在 分 布 式 文件 系统 上 ， 一般 为 HDFS， 在 Map 处 理 之 前 数据 会 被 切 分 ， 每 一 块 对 应 一 个 Map， 由 于 数据 分 布 在 整个 集群 上 ， 因 此 用 户 编写 的 Map 会 在 不 同 的 机 器 节点 


上 并 行 执行 ，Map 的 输入 是 键 值 对 集合 ， 输 出 也 是 键 值 对 集合 ， 然 后 经 过 分 组 排序 ，Reduce 操 作 通 过 对 中 间 产 生 的 key 键 来 进行 分 发 数据 ， 中 间 产 生 的 key 可 以 根据 某 种 分 区 函数 进行 分 布 〈 比 如 
hash(key)mod R) ， 分 布 成 为 R 块 。 分 区 (R) 的 数量 和 分 区 函数 都 是 由 用 户 指定 的 。 最 终 Reduce 会 把 结果 输出 到 分 布 式 文件 系统 中 。 
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图 5-1 MapReduce 编 程 模型 
对 用 户 而 言 ， 仪 仅 需 要 调用 MapReduce 编 程 接口 来 编写 Map 和 Reduce 函 数 ， 指 定 输入 /输出 路 径 ， 以 及 可 选 的 调节 参数 就 可 以 完成 MapReduce 编 程 对 象 ， 通 过 MapReduce 框 架 本 身 就 可 以 将 用 户 的 
代码 和 MapReduce 库 连接 在 一 起 并 提交 给 集群 来 并 行 执行 。 


5.2.2 MapReduce 实 现 原理 


使 用 MapReduce 模 型 来 编写 分 布 式 应 用 程序 是 很 简单 的 ， 因 为 用 户 只 需要 编写 符合 模型 接口 的 Map 和 Reduce 函 数 ， 而 要 在 一 个 普通 硬件 集群 中 实现 这 样 一 个 并 行 计算 框架 确实 不 容易 ， 需 要 考虑 很 多 
问题 ， 这 些 问 题 总 结 如 下 : 


1) 通用 硬件 一 般 为 X86 架构 ，Linux 操 作 系 统 。 

2) 集群 中 的 网 络 设备 为 一 般配 置 ， 每 个 机 器 的 带 完 为 百 兆 或 者 干 兆 ， 但 是 远 小 于 网 络 的 平均 带宽 的 一 半 。 
3) 集群 中 机 器 有 上 干 个 节点 ， 硬 件 出 现 故 障 是 常态 。 

4) 硬盘 为 廉价 存储 设备 ， 需 要 一 个 强大 的 分 布 式 文件 系统 来 支撑 ， 需 要 解决 容错 性 、 高 并 发 读 写 等 问题 。 
5) 需要 一 个 调度 系统 将 用 户 提交 的 作业 合理 地 分 配 到 计算 节点 上 执行 。 


Hadoop 考 虑 了 上 述 问 题 并 以 Google 的 MapReduce 模 型 为 原理 ， 使 用 Java 语 言 实现 了 整个 MapReduce 并 行 计算 框架 ， 实 现 原 理 图 ， 如 图 5-2 所 示 。 
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图 5-2 ”MapReduce 实 现 原理 图 


图 5-2 中 展示 了 MapReduce 实 现 中 的 全 部 操作 流程 ， 处 理 步骤 如 下 : 
步骤 1 用户 程序 中 的 MapReduce 函 数 库 首先 把 输入 文件 分 成 M 块 (Hadoop 默 认 64M， 这 个 参数 可 以 通过 参数 修改 来 确定 ) 。 接 着 在 集群 机 器 上 执行 处 理 程序 ， 见 图 中 流程 (1) 所 示 。 


步 又 2 主 控 程序 master 分 配 Map 任 务 和 Redcue 任 务 给 工作 执行 机 器 worker。 总 共有 M 个 Map 任 务 和 R 个 Reduce 任 务 需要 分 配 。master 会 选择 空闲 的 worker 并 且 分 配 这 些 Map 任 务 或 者 Reduce 任 务 


给 worker 节 点 ， 见 图 中 流程 (2) 所 示 。 


步骤 3 一 个 分 配 了 Map 任 务 的 worker 读 取 并 处 理 相 关 的 输入 数据 块 。 从 输入 的 数据 片段 中 解析 出 key/value 键 值 对 ， 然 后 把 key/value 键 值 对 传递 给 用 户 自 定义 的 Map 遂 数 ， 由 Map 遂 数 生成 并 输出 中 
间 key/value 键 值 对 集合 ， 这 些 键 值 对 集合 会 暂时 缓存 在 内 存 中 ， 见 图 中 流程 (3) 所 示 。 


步骤 4 缓存 中 的 key/value 键 值 对 通过 分 区 函数 分 成 R 个 区 域 ， 之 后 周期 性 地 写 入 本 地 磁盘 上 。 同 时 缓存 的 key/value 键 值 对 集合 在 本 地 磁盘 上 的 存储 位 置 将 被 回 传 给 master， 由 master 负 责 把 这 些 存 
储 位 置 再 传送 给 Reduce worker， 见 图 中 流程 (4) 所 示 。 


步骤 5 ” 当 Reduce worker 程 序 接收 到 master 程 序 发 来 的 数据 存储 位 置信 息 后 ， 使 用 RPC 从 Map worker 所 在 主机 的 磁盘 上 读 取 这 些 缓存 数据 。 在 Reduce worker 读 取 了 所 有 的 中 间 数 据 后 ， 通 过 对 key 
进行 排序 后 使 得 具有 相同 key 值 的 数据 聚合 在 一 起 。 由 于 许多 不 同 的 key 值 会 映射 到 相同 的 Reduce 任 务 上 ， 因 此 必须 进行 排序 。 如 果 中 间 数 据 太 大 无 法 在 内 存 中 完成 排序 ， 那 么 就 要 进行 外 部 排序 ， 见 图 中 
流程 (5) 所 示 。 


步骤 6 ”Reduce worker 程 序 遍历 排序 后 的 中 间 数 据 。 对 于 每 一 个 唯一 的 中 间 key 值 ，Reduce worker 程 序 都 会 将 这 个 key 值 和 它 相关 的 中 间 value 值 的 集合 传递 给 用 户 自 定义 的 Reduce 函 数 。Reduce 函 
数 的 输出 被 追加 到 所 属 分 区 的 输出 文件 ， 见 图 中 流程 (6) 所 示 。 


最 后 ， 在 成 功 完成 任务 之 后 ，MapReduce 的 输出 存放 在 R 个 输出 文件 中 (对 应 每 个 Reduce 任 务 产生 一 个 输出 文件 ， 输 出 目录 由 用 户 指定 ) 。 一 般 情况 下 ， 用 户 不 需要 将 R 个 输出 文件 合并 成 一 个 文件 
一 一 他 们 经 常 把 这 些 文件 作为 另外 一 个 MapReduce 的 输入 ， 或 者 在 另外 一 个 可 以 处 理 多 个 分 割 文件 的 分 布 式 应 用 中 使 用 。 


5.3 ”计算 流程 与 机 制 


5.3.1 “作业 提交 和 初始 化 


MapReduce 的 Master JobTracker 接 收 到 客户 端 提 交 的 作业 后 首先 要 完成 的 就 是 将 用 户 作业 初始 化 为 Map 任 务 和 Reduce 任 务 ， 然 后 就 是 等 待 调度 执行 。 作 业 提 交 及 初始 化 流程 ， 如 图 5-3 所 示 。 
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图 5-3 ”Hadoop 作 业 提 交 与 初始 化 流程 示意 图 


从 图 5-3 中 可 以 看 出 MapReduce 客 户 端 提交 作业 以 及 初始 化 的 流程 。 
作业 提交 流程 步骤 如 下 : 


步骤 1 命令 行 提交 。 用 户 使 用 Hadoop 命 令 行 脚本 提交 MapReduce 程 序 到 集群 ， 具 体会 调用 JobClient.runJob() 方 法 (或 者 1.0.x 版 本 的 Job 对 象 的 waitForCompletion(true)) 开始 提交 ， 最 终 是 通过 
Job 对 象 内 部 JobClient 对 象 的 submitJoblnterna| 方 法 来 提交 作业 到 JobTracker。 


步骤 2 作业 上 传 。 在 提交 作业 到 JobTracker 之 前 还 需要 完成 相关 的 初始 化 工作 ， 这 些 工作 包括 获取 用 户 作 业 的 Jobld， 创建 HDFS 目 录 ， 上 传 作 业 、 相 关 依 赖 库 、 需 要 分 发 的 文件 等 到 HDFS 上 ， 同 时 还 
包括 用 户 输入 数据 的 所 有 分 片 信息 。 需 要 注意 的 是 这 些 要 上 传 和 下 载 的 文件 都 是 由 DistributedCache 自 动 完 成 的 ， 不 需要 用 户 直 接 干 涉 。 


步骤 3 ”产生 切 分 文件 。 在 作业 提交 后 ，JobClient 调 用 InputFormt 中 的 getSplits0) 方 法 产生 用 户 数 据 的 split 分 片 信息 ， 这 些 信息 包括 InputSplit 元 数据 信息 、 原 始 切 分 信息 ， 其 中 元 数据 信息 会 被 
JobTracker 使 用 ， 原 始 切 分 信息 会 在 Map 任 务 初始 化 时 用 于 获取 自己 要 处 理 的 数据 信息 ， 这 两 部 分 数据 被 保存 到 job.split 文 件 和 job.splitmetainfo 文 件 中 用 于 后 续 访问 。 


步骤 4 提交 作业 到 JobTracker。JobClient 通 过 远程 调用 协议 RPC 将 作业 提交 到 JobTracker 作 业 调度 器 中 ， 首 先 为 作业 创建 JoblnProgress 对 象 。JobTracker 会 为 用 户 提交 的 每 一 个 作业 创建 一 个 
JoblnProgress 对 象 ， 这 个 对 象 维护 了 作业 运行 时 的 信息 ， 主 要 用 于 跟踪 正在 运行 的 作业 的 状态 和 进度 ; 其 次 ， 检 查 用 户 是 否 具有 指定 队列 的 作业 提交 权限 。Hadoop 作 业 调 度 以 队列 为 单位 来 管理 作业 和 资 
源 ， 每 个 队列 分 配 有 一 定 的 资源 ， 调 度 器 可 以 为 每 个 队列 指定 哪些 用 户 有 权限 提交 作业 ; 接着 检查 作业 配置 的 内 存 使 用 量 是 否 合理 ， 用 户 在 提交 作业 时 ， 可 以 分 别 通 过 参数 mapredjob.map.memory.mb 
和 mapredjob.reduce.memory.mb 指 定 Map Task 和 Reduce Task 的 内 存 使 用 量 ， 而 管理 员 可 以 为 集群 中 的 Map Task 和 Reduce Task 分 别 设置 内 存 使 用 量 ， 一 旦 用 户 配置 的 内 存 使 用 量 超过 总 的 内 人 存 限 
制 ， 作 业 就 会 提交 失败 ; 最 后 通知 TaskScheduler 初 始 化 作业 ，JobTracker 收 到 提交 的 作业 后 ， 会 交 给 TaskScheduler 调 度 器 ， 然 后 按照 一 定 的 策略 对 作业 执行 初始 化 操作 。 


通过 上 面 4 个 步骤 就 完成 了 MapReduce 作 业 的 提交 ， 然 后 就 开始 作业 初始 化 了 。 作 业 初 始 化 主要 是 指 构造 Map Task 和 Reduce Task 并 对 它们 进行 初始 化 操作 ， 这 一 步 操 作 主 要 是 由 调度 器 调用 
JobTrackerinitJob() 方 法 来 进行 的 。 有 具体 情况 是 Hadoop 将 每 个 作业 分 成 4 种 类 型 的 任务 : Setup Task、Map Task、Reduce Task 和 Cleanup Task， 它 们 运行 时 的 信息 由 TasklnProgress 维 护 。 因 此 ， 创 
建 这 些 任 务 就 是 创建 TasklnProgress 对 象 。 初 始 化 流程 ， 如 图 5-4 所 示 。 
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图 5-4 ”初始 化 任务 流程 


从 图 5-4 中 可 以 看 到 作业 初始 化 中 的 四 个 主要 流程 ，Setup Task 是 作业 初始 化 标志 性 任务 ， 它 进行 一 些 很 简单 的 作业 初始 化 工作 ， 这 个 类 型 的 任务 分 为 Map Setup Task 和 Reduce Setup Task 两 种 ， 并 
且 只 能 运行 一 次 ; Map Task 是 Map 阶 段 的 数据 处 理 任务 ;Reduce Task 是 Reduce 阶 段 处 理 数据 的 任务 ， 其 数目 可 以 由 用 户 通 过 参数 mapred.reduce.tasks 指 定 。Hadoop 刚 开始 运行 时 只 会 执行 Map Task 
任务 ， 直 到 Map Task 完 成 数目 达到 由 参数 mapred.reduce.slowstart.completed.maps 指 定 的 百分比 后 ， 才 开始 调用 Reduce Task; Cleanup Task 是 作业 结束 的 标志 性 任务 ， 主 要 是 做 一 些 作业 清理 的 工 
作 ， 比 如 删除 作业 在 运行 中 产生 的 一 些 I 临 时 目录 和 数据 等 信息 。 


5.3.2 Mapper 


在 作业 初始 化 工作 完成 之 后 就 开始 执行 Map Task 任 务 了 ， 这 是 由 Mapper 负 责 的 ，Mapper 的 作用 就 是 执行 用 户 的 Map(0 函 数 将 输入 键 值 对 (key/value pair) 映像 到 一 组 中 间 格 式 的 键 值 对 集合 。 这 种 
转换 的 中 间 格 式 记 录 集 不 需要 与 输入 记录 集 的 类 型 一 致 。 一 个 给 定 的 输入 键 值 对 可 以 映射 成 零 个 或 多 个 输出 键 值 对 。 


Hadoop MapReduce 框 架 为 每 一 个 InputSplit 产 生 一 个 Map 任 务 ， 而 每 个 InputSplit 是 由 该 作业 的 InputFormat 产 生 的 ，Map 任 务 独立 于 TaskTracker 的 Java 虚 拟 机 中 运行 ， 同 时 通过 心跳 机 制 和 
JobTracker 通 信 。Mapper 的 处 理 流程 图 ， 如 图 5-5 所 示 。 
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图 5-5 ”Mapper 处 理 流程 图 


从 图 5-5 中 可 以 看 到 : Mapper 的 输入 文件 位 于 HDFS 上 ; InputFormat 接 口 描述 文件 的 格式 信息 ， 通 过 这 个 接口 可 以 获得 InputSplit 的 实现 ， 然 后 对 输入 的 数据 进行 切 分 ;每 一 个 Split 分 块 对 应 一 个 
Mapper 任 务 ， 通 过 RecordReader 对 象 从 输入 分 块 中 读 取 并 生成 <k，v> 键 值 对 ; Map 遂 数 接收 这 些 键 值 对 并 根据 用 户 的 Map 函 数 逻 辑 进行 处 理 后 输出 <k1，v1> 键 值 对 ，Map 遂 数 通 过 context.collect 方 
法 将 结果 写 到 context 对 象 中 ; 当 Mapper 的 输出 键 值 对 集中 被 收集 后 ， 它 们 会 被 Partitioner 类 中 的 partition0 遂 数 以 指定 的 方式 区 分 并 写 到 输出 组 中 区 中 ， 同 时 调用 sort0 函 数 对 输出 进行 排序 操作 ， 如 果 用 
户 为 Mapper 指 定 了 Combiner， 则 在 Mapper 输 出 它 的 <k1，v1> 键 值 对 时 ， 键 值 对 不 会 马上 写 到 输出 中 ， 它 们 会 被 收集 在 list 对 象 中 (一 个 key 值 一 个 list，<key，list<value> >) ， 当 写 入 一 定数 量 的 键 值 
对 时 ， 这 部 分 缓冲 会 被 Combiner 中 的 combine0 遂 数 合并 ， 然 后 输出 被 写 入 本 地 文件 系统 之 后 会 进入 Reduce 阶 段 ， 如 果 没有 Reduce， 则 Mapper 的 输出 最 终 被 写 入 DFS， 一 般 默 认 就 是 HDFS。 


指定 一 个 Combiner 可 通过 JobConf.setCombinerClass(Class) 来 操作 ， 它 负责 对 中 间 过 程 的 输出 进行 本 地 聚集 ， 这 会 有 助 于 降低 从 Mapper 到 Reducer 的 数据 传输 量 。 这 些 被 排 好 序 的 中 间 过 程 的 输出 
结果 的 保存 格式 是 (key-len，key，value-len，value)， 应 用 程序 可 以 通过 JobConf 对 这 些 中 间 结 果 是 否 进行 压缩 、 怎 么 压缩 ， 以 及 使 用 哪 种 压缩 编码 进行 。 


的 方法 partition 规 定 的 ， 输 入 的 是 Map 的 输出 键 值 对 集合 <key，value> 和 Reducer 的 数目 ; 输出 的 则 是 分 配 的 Reducer 节 点 编号 。 系 统 默 认 的 Partitioner 是 HashPartitioner， 它 以 key 的 Hash 值 对 
Reducer 的 数目 取 模 ， 得 到 对 应 的 Reducer。 


5.3.3 Reducer 


Reducer 将 与 一 个 key 关 联 的 一 组 中 间 数 值 集 归 约 为 一 个 更 小 的 数值 集 。 用 户 可 以 通过 JobConf.setNumReduceTasks(int) 设 定 一 个 作业 中 Reduce 任 务 的 数目 ，Reducer 有 3 个 主要 阶段 : Shuffle、Sort 
和 Reduce， 处 理 流程 图 ， 如 图 5-6 所 示 。 
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图 5-6 ” Reducer 处 理 流 程 图 
从 图 5-6 中 就 可 以 看 出 Reducer 处 理 的 整个 过 程 。 


第 一 个 阶段 就 是 Shuffle， 此 时 Reducer 的 输入 就 是 Mapper 已 经 排 好 序 的 输出 。 在 这 个 阶段 ， 框 架 通过 HTTP 协 议 为 每 个 Reducer 获 得 所 有 Mapper 输 出 中 与 之 相关 的 分 块 ， 因 此 Shuffle 阶 段 可 以 理解 为 
混 洗 阶段 ， 就 是 怎样 把 Map Task 的 输出 结果 有 效 地 传送 到 Reduce 端 ， 所 做 的 大 量 操作 就 是 数据 复制 ， 因 此 也 可 以 称 为 数据 复制 阶段 。 


第 二 个 阶段 就 是 Sort 排 序 阶 段 。 这 个 阶段 ， 框 架 将 按照 key 的 值 对 Reducer 的 输入 进行 分 组 (因为 不 同 Mapper 的 输出 中 可 能 会 有 相同 的 key) 。Shuffle 和 Sort 两 个 阶段 是 同时 进行 的 ，Map 的 输出 也 是 
一 边 被 取 回 一 边 被 合并 的 。 排 序 是 基于 内 存 和 基于 磁盘 的 混合 模式 进行 的 ， 往 往 经 过 多 次 Merge 才 能 完成 排序 。 


如 果 中 间 过 程 需要 对 key 的 分 组 规则 与 Reducer 处 理 之 前 key 的 分 组 规则 不 同 ， 那 么 可 以 通过 JobConf.setOutputValueGroupingComparator(Class) 来 指定 一 个 Comparator。 再 加 上 
JobConf.setOutputKeyComparatorClass(Class) 可 用 于 控制 中 间 过 程 的 key 如 何 被 分 组 ， 所 以 结合 两 者 可 以 实现 按 值 的 二 次 排序 。 


第 三 个 阶段 就 是 真正 的 Reduce 处 理 阶 段 ， 通 过 Shuffle 和 sort 得 到 的 <key，(list of values)> 会 送 到 Reducer 中 的 reduce() 函 数 中 处 理 ， 针 对 每 一 个 <key，(list of values)> 会 调用 一 次 reduce() 函 数 ， 输 
出 的 结果 通过 OutputFormat 输 出 到 DFS 中 。 


5.3.4 Reporter 和 OutputCollector 


Reporter 是 用 于 MapReduce 应 用 程序 报告 进度 ， 设 定 应 用 级 别 的 状态 消息 ， 更 新 Counters (计数 器 ) 的 机 制 。Mapper 和 Reducer 的 处 理 情 况 可 以 利用 Reporter 来 报告 进度 ， 或 者 仅 是 表明 自己 运行 
正常 。 在 应 用 程序 需要 花 很 长 时 间 处 理 个 别 键 值 对 的 场景 中 ， 这 种 机 制 是 很 关键 的 ， 因 为 框架 可 能 会 认为 这 个 任务 超时 了 ， 从 而 将 它 强行 杀 死 。 另 一 种 避免 这 种 情况 发 生 的 方式 是 ， 将 配置 参数 
Mapred.task.timeout 设 置 为 一 个 足够 高 的 值 (或 者 干脆 设置 为 零 ， 则 没有 超时 限制 了 ) 。Reporter 接 口 类 图 ， 如 图 5-7 所 示 。 


<<Ljnresolved lInterface>> 


Os Progressable 
(util) 


Cs Reporter 
NULL : Reporter = new Reporter() 1... 


setotatus (String status) : VoOId 
getCounter (ENum<?> name,) : Counter 


getCounter (Stnmng group, Sting name) : Counter 
incrCounter (Enum<?> key, long amount) : Void 
incrCounter (String group, String counter, long amount) :void 
getinputSplit () : InputSplit 


图 5-7 Reportet 接 口 类 图 


图 5-7 描 述 了 Reporter 类 中 的 主要 接口 方法 ， 应 用 程序 可 以 调用 Reporter 中 的 相关 方法 来 得 到 相关 计数 器 的 状态 并且 可 以 更 新 计数 器 的 值 。 当 然 用户 也 可 以 使 用 这 个 类 自 定义 计数 器 进行 相关 的 跟踪 
调试 。 


OutputCollector 是 一 个 由 Map/Reduce 框 架 提供 的 、 用 于 收集 Mapper 或 Reducer 输 出 数据 的 通用 机 制 ， 在 老 版 本 的 MapReduce APl 中 通过 OutputCollector 对 象 的 collect0 函 数 来 输出 结果 ， 在 新 版 
本 的 MapReduce APl 中 已 经 使 用 Context 的 write() 函 数 来 代替 。 相 比较 而 言 ， 新 版 本 接口 中 的 Context 类 可 扩展 性 更 强 。 


5.4 MapReduce 的 输入 /输出 格式 


MapReduce 计 算 框架 本 质 上 是 一 种 基于 磁盘 的 批 处 理 并 行 计 算 系 统 ， 每 一 轮 的 MapReduce 作 业 都 需要 从 分 布 式 文件 系统 中 读 取 数 据 ， 处 理 之 后 再 写 入 分 布 式 文件 系统 。 其 涉及 很 多 MO 操作 ， 这 些 操 
作 包 括 内 存 到 磁盘 、 磁 盘 到 内 存 ， 以 及 节点 之 间 的 数据 交换 等 。 在 这 些 I/O 操 作 中 ， 最 核心 的 设计 之 一 就 是 与 输入 /输出 相关 的 类 设计 ， 因 此 学 习 Hadoop MapReduce 的 输入 和 输出 对 于 深入 理解 和 使 用 
MapReduce 是 至 关 重 要 的 ， 本 节 将 讲述 MapReduce 中 输入 /输出 的 相关 内 容 。 


5.4.1 输入 格式 


Hadoop 中 的 MapReduce 框 架 依赖 InputFormat 提 供 数 据 输 入 ， 也 就 是 InputFormat 为 MapReduce 作 业 描述 输入 的 细节 规范 。InputFormat 主 要 有 以 下 三 个 作用 。 


第 一 ， 检 查 作 业 输入 的 有 效 性 。 基 于 文件 的 InputFormat 实 现 (通常 是 FilelnputFormat 的 子 类 ) 的 默认 行为 是 按照 输入 文件 的 字 节 大 小 ， 把 输入 数据 切 分 成 逻辑 分 块 (logical Inputsplit) ， 其 中 输入 
文件 所 在 的 Filesystem 的 数据 块 尺 十 是 分 块 大 小 的 上 限 ， 下 限 可 以 设置 为 mapred.min.split.size 的 值 。 考 虑 到 边界 情况 ， 对 于 很 多 应 用 程序 来 说 ， 很 明显 按照 文件 大 小 进行 逻辑 分 割 是 不 能 满足 需求 的 。 在 
这 种 情况 下 ， 应 用 程序 需要 实现 一 个 RecordReader 来 处 理 记录 的 边界 ， 并 为 每 个 任务 提供 一 个 逻辑 分 块 面向 记录 的 视图 。 


TextlnputFormat 是 默认 的 InputFormat， 如 果 一 个 作业 的 Inputformat 是 TextlnputFormat， 并 且 框 架 检 测 到 输入 文件 的 后 缀 是 .gz 和 .|zo， 就 会 使 用 对 应 的 CompressionCodec 自 动 解压 缩 这 些 文 
件 。 但 是 需要 注意 上 述 带 后 缀 的 压缩 文件 不 会 被 切 分 ， 并 且 整 个 压缩 文件 会 分 给 一 个 Mapper 来 处 理 ， 关 于 压缩 问题 后 续 章 节 会 进行 详细 讲述 。 


第 二 ， 把 输入 文件 切 分 成 多 个 逻辑 Inputsplit 实 例 ， 并 把 每 一 个 实例 分 别 分 发 给 一 个 Mapper， 也 束 是 一 个 Mapper 的 输入 只 对 应 一 个 逻辑 Inputsplit 实 例 ， 只 处 理 一 个 split 文 件数 据 块 。 
InputSplit 是 一 个 单独 的 Mapper 要 处 理 的 数据 块 。 一 般 的 InputSplit 是 字 节 样式 输入 ， 然 后 由 RecordReader 处 理 并 转化 成 记录 样式 。FileSplit 是 默认 的 InputSplit， 其 类 图 如 图 5-8 所 示 。 


从 图 5-8 中 可 以 看 到 FileSplit 继 承 了 InputSplit 基 类 ， 其 中 通过 write(DataOutput out) 和 readFields(Datalnput in) 两 种 方法 进行 序列 化 和 反 序 列 化 。FileSplit 把 map.input.file 设 定 为 输入 文件 的 路 径 ， 
输入 文件 是 逻辑 分 块 文件 。 


第 三 ， 提 供 RecordReader 的 实现 。 这 个 RecordReader 从 逻辑 InputSsplit 中 获得 输入 记录 ， 这 些 记录 将 由 Mapper 处 理 ，Mapper 利 用 该 实现 从 InputSplit 中 读 取 输 入 的 <K，V> 键 值 对 。RecordReader 
调用 类 图 ， 如 图 5-9 所 示 ， 其 中 的 next(K key，V value) 方 法 从 Inputslit 读 入 <key，value> 键 值 对 。 


FilesSplit 


- file : Path 
start : |ong 
length :long 
hosts :Stnngl] 


<<CGonNnstructor>> 
<<COoNStructor>> 
<<CGonstructor>> 


<<|mplement>> 


十 十 十 二 十 十 十 十 十 


<<|Implement>> 


FileSplit () <<Unresolved Class>> 


FileSplit (Path file, long start, long length, JobConf conf) InputSplit 
FileSplit (Path file, long start, long length, String hosts]]) 2 (mapreduce) 


getPath ()} : Path 
getStart () : Iong 
getLength () : long 


toString (0) : String 
write (DataOQutput out) : Vold 
readFields (Datalnput in) : Void 
getLocations () : String[] 


NA 


GS InputSplit | 


+ getLength () :long 
+ getLocations() : String[ 


<<LUnresolved Interface>> 


O— Wntable 
(io) 


图 5-8 ”FileSplit 类 图 


RecordReader 


next (K key, V value) : boolean 


到 


createKey () K 
createValue () V 


Iong 
void 
getProgress () float 


图 5-9 ”RecordReader 类 图 


通常 RecordReader 把 由 InputSplit 提 供 的 字 节 样式 的 输入 文件 ， 转 化 成 由 Mapper 处 理 的 记录 样式 的 文件 。 因 此 RecordReader 负 责 处 理 记 录 的 边界 情况 和 把 数据 表示 成 keys/values 键 值 对 集合 的 形 


二 本 


InputFormat 的 类 图 ， 如 图 5-10 所 示 。 从 中 可 以 看 出 其 中 两 个 重要 的 方法 getsplits 和 getRecordReader，InputFormat 必 须要 实现 这 两 种 方法 。 


<K,V: 
O InputFormat 


+ getSplits (JobConf job, int numSplits) : InputSplit[] 


+ getRecordReader (InputSplit split, JobConf job, Reporter reporter) : RecordReader<K, V> 


图 5-10 ”MapReduce 的 InputFormat 类 图 


Hadoop 中 提供 了 基于 文件 的 InputFormat 实 现 FilelnputFormat， 其 实现 了 getsplit 和 getRecordReader 两 个 重要 的 方法 ， 是 一 个 非常 核心 的 InputFormat 的 实现 基 类 。MapReduce 中 的 各 种 文件 输 
入 格式 都 是 FilelnputFormat 的 子 类 ， 下 面 将 详细 介绍 InputFormat 的 子 类 实现 及 各 输入 类 型 之 间 的 继承 关系 。 


1.TextlnputFormat 


TextlnputFormat 用 于 读 取 纯 文本 文件 ， 是 Hadoop 默 认 的 InputFormat 的 派生 类 ， 文 件 被 分 为 一 系列 以 LF 或 者 CR 结束 的 行 。LineRecordReader 将 Inputsplit 解 析 成 <key，value> 对 ，key 是 每 一 行 的 
位 置 ( 偏 移 量 ,为 LongWritable 类 型 ) ，value 是 每 一 行 的 内 容 (为 Text 类 型 ) 。TextlnputFormat 类 图 ， 如 图 5-11 所 示 。 


<<bind>> 
王 -> FilelnputFormat_ LongWritable Text 


TextlnputFormat 


- _ compressionCodecs : CompressionCodecFactory = null 


+ configure (JobConf conf) : void 
# isSplitable (FileSystem fs, Path file) : boolean 
+ getRecordReader (InputSplit genencSplit, JobConf job, Reporter reporter) : RecordReader<LongWritable，Text> 


<<Unresolved Interface>> 
JobConfigurable 


图 5-11 TextInputFormat 类 图 


从 图 5-11 中 可 以 看 出 ，TextinputFormat 类 继承 了 FilelnputFormat 基 类 ， 实 现 了 JobConfigurable 接 口 ， 实 现 了 InputFormat 中 的 getRecordReader 这 一 重要 方法 ， 返 回 一 个 RecordReader 用 于 在 划 
分 中 读 取 <Key，Value> 键 值 对 。 


2.KeyValueTextInputFormat 


KeyValueTextinputFormat 同 样 用 于 读 取 文 本 文件 ， 与 TextInputFormat 不 同 之 处 在 于 : 如 果 行 被 分 隔 符 (默认 是 tab) 分 割 为 两 部 分 ， 第 一 部 分 为 key， 第 二 部 分 为 value; 如 果 没 有 分 隔 符 ， 整 行 作 
为 key，value 则 为 空 。KeyValueTextlnputFormat 类 图 ， 如 图 5-12 所 示 。 


一 下 > FilelnputFormat Text Text 


KeyValue TextlnputFormat 
- compressonCodecs :CompressonCodecFactory = null 
+ configure (JobConf conf) 
# isSplitable (FileSystem fs Path file) 
+ getRecordReader (InputSplit generncSplit, JobConf job, Reporter reporter) 


: VoId 
: boolean 
: RecordReader<Text, Text> 


<<Unresolved Interface>> 


JobConfigurable 


图 5-12 KeyValueTextInputFormat 类 图 


和 TextlnputFormat 一 样 ，KeyValueTextlnputFormat 也 继承 了 FilelnputFormat 基 类 ， 实 现 了 JobConfigurable 接 口 ， 不 同 之 处 在 于 输入 键 值 对 的 类 型 为 <Text，Text> 类 型 ， 见 图 5-12 中 的 
RecordReader() 方 法 。 


3.NLinelnputFormat 


NLinelnputFormat 类 型 可 以 将 文件 以 行为 单位 进行 split 切 分 ， 比 如 文件 的 每 一 行 对 应 一 个 Map。 得 到 的 key 是 每 一 行 的 位 置 ( 偏 移 量 ，LongWritable 类 型 ) 
NLinelnputFormat 类 图 ， 如 图 5-13 所 示 。 


[== 


，Value 是 每 一 行 的 内 容 (为 Text 类 型 ) 。 


一 -> FilelnputFormat LongwWritable Text 


NLinelnputFormat 
- N :int =1 


+ getRecordReader (InputSplit genericSplit, JobConf job, Reporter reporter) : RecordReader<LongWritable, Text> 
+ getSplits (JobConf job, int numSplits) : InputSplit[ 


+ configure (JobConf conf) : void 


<<Unresolved Interface>> Filel F 
Oo- JobConfigurable en 


mai (mapred) 


图 5-13 ”NLineInputFormat 类 图 


从 类 图 5-13 中 可 以 看 出 ，NLinelnputFormat 有 一 个 重要 的 变量 N， 这 个 值 表示 的 是 每 一 个 Mapper 接 收 的 是 以 多 少 行进 行 split 的 一 个 分 块 ， 默认 值 是 1， 也 就 是 一 行 对 应 一 个 split 分 块 ， 相 应 的 对 应 一 


个 mapper 来 处 理 。 用 户 可 以 通过 mapred.line.input.format.linespermap 参 数 来 自 定义 切 分 的 行 数 。 


4. 


sequenceFilelnputFormat 


SequenceFilelnputFormat 用 于 读 取 sequencefile。sequencefile 是 Hadoop 用 于 存储 数据 自 定义 格式 的 二 进 制 binary 文 件 。SequenceFilelnputFormat 有 两 个 子 类 : 


sequenceFileAsBinarylnputFormat， 将 key 和 valuel 以 BytesWritable 的 类 型 读 出 ; SedquenceFileAsTextlnputFormat， 将 key 和 value 以 Text 的 类 型 读 出 。SequenceFilelnputFormat 类 图 ， 如 图 5-14 所 


小。 


FlelnputFormat K V 


| 


SequenceFilelnputFormat 


KV 


+ <<Constructor>> SequenceFilelnputFormat () 
# listStatus (JobConf job) : FileStatusl] 
+ getRecordReader (InputSplit split, JobConf job, Reporter reporter) : RecordReader<K, V> 


图 5-14 ” SequenceFileInputFormat 类 图 


从 图 5-14 中 可 以 看 到 ，getRecordReader 返 回 RecordReader<K，V> ， 其 键 值 对 的 类 型 是 不 定 的 ， 是 由 输入 的 SequenceFile 文 件 中 的 键 值 类 型 决定 的 。 例 如 用 户 输入 的 SequenceFile 文 件 中 key 类 型 
是 IntWritable，value 类 型 是 Text， 则 用 户 指定 输入 文件 后 ， 在 程序 中 编写 Mapper 时 接口 为 Mapper<lntWritable，Text，K，V> ，lIntWritable 和 Text 就 是 用 户 输入 SequenceFile 文 件 中 的 键 值 对 类 型 。 
SeduenceFilelnputFormat 有 特殊 的 文件 扩展 名 ， 因 此 重 载 了 listStatus 方 法 ， 实 现 了 createRecordReader， 返 回 一 个 SedquenceFileRecordReader 对 象 。 


SequenceFileAsTextInputFormat 类 型 主要 是 为 了 适应 Hadoop Streaming 接 口 而 设计 的 ， 在 读 取 键 值 对 后 会 调用 toString() 方 法 将 key 和 value 类 型 转化 为 Text 类 型 对 象 ; 
SequenceFileAsBinaryInputFormat 类 型 则 是 为 了 更 好 的 处 理 二 进 制 数据 。 


5. 输 入 类 型 继承 关系 


上 面 讲述 了 几 个 主要 的 MapReduce 作 业 的 输入 类 型 ， 这 些 输入 类 型 的 继承 层次 ， 如 图 5-15 所 示 。 


TextInputFormat 


FileInputFormat<K,V> eyValueTextInputFormat StreamlnputFormat 


SequenceFileInputFormat 
<K,V> 


SequenceFileInputFilter<K,V> 


equenceFileAsBinaryInputFormat 


omposableInputFormat em er 


<K,V> 接 口 


SequenceFileInputFormat<K,V> 


> CompositeInputFormat 
DBInputFormat<T> P P 


EmptyInputFormat=<K, V> 


图 5-15 MapReduce 输 入 类 型 的 继承 层次 


从 图 5-15 中 可 以 清晰 地 看 出 各 种 输入 格式 的 继承 层次 ， 除 了 前 面 介绍 的 一 些 常 用 的 输入 格式 外 ， 可 以 看 到 还 有 ComposablelnputFormat 接 口 、DBInputFormat 类 和 EmptylnputFormat 类 。 使 用 
DBInputFormat 可 以 将 数据 库 (例如 MySQL) 作为 MapReduce 的 输入 源 ， 从 中 直接 读 取 数据 。 在 Hbase 中 与 DBInputFormat 类 似 的 有 一 个 TablelnputFormat 输 入 格式 ， 可 以 直接 将 Hbase 中 的 表 作 为 


MapReduce 的 输入 源 。 


5.4.2 ”输出 格式 


5.4.1 节 讲述 了 MapReduce 中 的 输入 格式 ， 类 似 的 ，Hadoop 中 的 OutputFormat 用 来 描述 MapReduce 作 业 的 输出 格式 。OutputFormat 也 有 以 下 三 个 主要 作用 : 
第 一 ， 检 验 作业 的 输出 。 例 如 ， 检 查 输出 路 径 是 否 已 经 存在 。 在 Hadoop 中 ， 如 果 输 出 目录 已 经 存在 于 HDFS 上 ， 则 整个 作业 会 提交 失败 ， 因 此 需要 先 检测 输出 目录 是 否 已 经 存在 。 


第 二 ， 验 证 输出 结果 类 型 是 否 如 在 Config 中 所 配置 的 。 默 认 的 OutputFormat 是 TextOutputFormat。 在 一 些 应 用 程序 中 ， 子 任务 需要 产生 一 些 side-file， 这 些 文件 与 作业 实际 输出 结果 的 文件 不 同 。 
在 这 种 情况 下 ， 同 一 个 Mapper 或 Reducer 的 两 个 实例 (比如 预防 性 任务 ) 同时 打开 或 者 写 FileSystem 上 的 同一 文件 就 会 产生 冲突 。 因 此 应 用 程序 在 写 文 件 的 时 候 需 要 为 每 次 任务 尝试 (不 仅仅 是 每 次 任务 ， 
每 个 任务 可 以 尝试 执行 很 多 次 ) 选取 一 个 独一无二 的 文件 名 (使 用 attemptid， 例 如 task_201306061812_0001_m_000000_0) 。 


为 了 避免 冲突 ，MapReduce 框 架 为 每 次 尝试 执行 任务 都 建立 和 维护 一 个 特殊 的 $fmapred.output.diry_temporary/_${taskid} 子 目录 ， 这 个 目录 位 于 本 次 尝试 执行 任务 输出 结果 所 在 的 FileSystem 上 ， 
可 以 通过 $fmapred.work.output.dir} 来 访问 这 个 子 目录 。 对 于 成 功 完 成 的 任务 尝试 ， 只 有 $fmapred.output.dir}y/_temporary/_${taskid} 下 的 文件 会 移动 到 ${mapred.output.dir}。 当 然 ， 框 架 会 丢弃 那些 
失败 的 任务 所 尝试 的 子 目 录 。 这 种 处 理 过 程 对 于 应 用 程序 来 说 是 完全 透明 的 。 


在 任务 执行 期 间 ， 应 用 程序 在 写 文件 时 可 以 利用 这 个 特性 ， 比 如 通过 FileOutputFormat.getWorkOutputPath() 获 得 $f{mapred.work.output.dir} 目 录 ， 并 在 其 下 创建 任意 任务 执行 时 所 需 的 side-file， 
框架 在 任务 尝试 成 功 时 会 马上 移动 这 些 文件 ， 因 此 不 需要 在 程序 内 为 每 次 任务 尝试 选取 一 个 独一无二 的 名 字 。 


全 注意 在 每 次 任务 尝试 执行 期 间 ，$ {mapreqd.work.output .dir} 的 值 实际 上 是 ${mapred.output.dir}/_temporary/_{$taskid}， 这 个 值 是 MapReduce 框 架 创 建 的 。 所 以 使 用 这 个 特性 的 方法 是 ， 在 
FileOutputFormat .getNorkOutputPath () 路 径 下 创建 siqe-file 即 可 。 


对 于 只 使 用 Map 不 使 用 Reduce 的 作业 ， 这 个 结论 也 成 立 。 在 这 种 情况 下 ，Map 的 输出 结果 直接 生成 到 HDFS 上 。 


第 三 ， 提 供 一 个 RecordWriter 的 实现 ， 用 来 输出 作业 结果 。RecordWriter 生 成 < key，value> 键 值 对 到 输出 文件 ， 其 类 图 ， 如 图 5-16 所 示 。 


O Record Whnter 


+ Write (K key, V value) 
+ close (Reporter reporter) 


全 we 四 em s 四 = me mm 


图 5-16 ”RecordWtitet 类 图 


从 图 5-16 中 可 以 看 出 ，RecordWriter 正 是 通过 write 方法 的 实现 把 作业 的 输出 结果 写 到 Filesystem 中 ， 通 过 close 方 法 关闭 其 所 对 应 的 输出 。OutputFormat 依 赖 两 个 辅助 接口 RecordWriter 和 
OutputCommitter 来 处 理 输出 。OutputFormat 类 图 ， 如 图 5-17 所 示 ， 通 过 getRecordWriter 方 法 获得 RecordWriter 对 象 ， 然 后 通过 RecordWriter 提 供 的 write 方法 用 于 输出 <key，value> 和 close 方 法 用 
于 关闭 对 应 的 输出 。 


<K,V 


O— OutputFormat 


+ getRecordWriter (FileSystem ignored, JobConf job, Sting name, Progressable progress) : RecordWnter<K, V> 


+ checkOutputSpecs (FileSystem ignored, JobConf job) : void 


图 5-17 OutputFormat 类 图 


OutputCommitter 提 供 了 一 系列 的 方法 ， 用 户 通 过 实现 这 些 方法 ， 可 以 定制 OutputFormat 生 存 期 某 些 阶段 需要 的 特殊 操作 。 和 InputFormat 类 似 ，FileOutputFormat 是 Hadoop 中 基于 文件 的 
OutputFormat 实 现 ， 也 是 一 个 重要 的 基 类 ， 下 面 将 介绍 几 种 比较 重要 的 MapReduce 输 出 类 及 它们 之 间 的 继承 关系 。 


1.TextOutputFormat 


TextOutputFormat 是 Hadoop 默 认 的 输出 格式 ， 就 是 输出 为 纯 文 本 文件 ， 格 式 为 key+ '\t"+value，Kkey 与 value 之 间 默 认 以 \t (横向 跳 格 ) 分 割 ， 其 类 图 ， 如 图 5-18 所 示 。 


TextoOutputFormat:LineRecordWiriter 


utf8 :String 
newline : byte[] 
Out : DataOutputStream 
keyValueSeparator : byte[] 


<<staticlnitializer>> _STATIC INITIALIZER () 
<<Constructor>> LineRecordWnter (DataOutputStream out, String keyValue Separaton) 
<<Constructor>> LineRecordWnter (DataOQutputStream out) 

write Object (Object o) 

write (K key, V value) 


close (Reporter reporter) c- RecordWnter K_V 


co- Record Wnter | 
— 


<<bind>> 


a 


<<bind>> 
图 5-18 ”TextOutputFormat 类 图 
从 图 5-18 中 可 以 看 出 TextOutputForma 直 接 继 承 了 FileOutputFormat 类 ， 提 供 一 个 RecordWriter 的 实现 ， 最 终 通 过 LineRecordWriter 函 数 将 最 终结 果 写 成 纯 文 本 文件 ， 每 个 <key，value> 对 应 一 
行 ，key 和 value 之 间 用 tab 分 隔 。 当 然 用 户 可 以 自 定 义 使 用 参数 mapred.textoutputformat.separator 指 定 key 和 value 的 分 割 符 。 
2.SequenceFileOutputFormat 


SequenceFileOutputFormat 就 是 输出 为 Hadoop 中 的 SequenceFile 文 件 格 式 。SequenceFile 是 一 种 基于 二 进 制 键 值 对 数据 结构 的 文件 存储 格式 ， 在 Hadoop 中 是 一 种 非常 高 效 的 文件 格式 ， 往 往 作 为 
下 一 轮 MapReduce 作 业 的 输入 格式 。 与 SequenceFileOutputFormat 对 应 的 输入 格式 是 SequenceFileAsTextInputFormat。 我 们 可 以 简单 分 析 一 下 SequenceFileOutputFormat 格 式 ， 其 类 图 ， 如 图 5-19 


所 示 。 


FileOutputFormat K_V 


SequenceFileOQutputFormat 


+ getRecordWriter (FileSystem ignored, JobConf job, Sting name, Progressable progress) : RecordWrter<K, V> 

+ getReaders (Configuration conf, Path dir) : SequenceFile.Readell] 
+ getOutputCompressionType (JobConf conf) : CompressonType 

+ setOutputCompressonType (JobConf conf, CompressionTyYpe style) : void 


FileOQutputFormat 


图 5-19 ” SequenceFileOutputFormat 类 图 


从 5-19 中 可 以 看 出 ，SequenceFileOutputFormat 输 出 格式 同样 继承 了 FileOutputFormat 基 类 ， 其 中 的 方法 getRecordWrite() 返 回 RecordWrite 的 实现 ， 用 于 处 理 输 出 数据 并 负责 输出 最 终结 果 ; 方 
法 getOutputCompressionType 可 以 得 到 用 户 设置 的 压缩 参数 从 而 在 输出 最 终 数 据 时 启用 相应 的 压缩 算法 。 


和 SedquenceFileOutputFormat 输 出 格式 相关 的 还 有 一 个 变 体 ， 就 是 gequenceFileAsBinary-OutputFormat 输 出 格式 ， 和 SequenceFileAsBinarylnputFormat 相 对 应 ， 它 将 键 值 对 当 作 二 进 制 数据 写 
入 一 个 顺序 文件 。 


3.MapFileOutputFormat 


指定 MapFileOutputFormat 输 出 类 型 可 以 将 数据 输出 为 Hadoop 中 的 MapFile 文 件 格式 。MapFile 和 SequenceFile 类 似 ， 都 是 Hadoop 中 一 种 基于 键 值 对 数据 结构 的 文件 格式 ， 不 同 之 处 在 于 MapFile 
在 SequenceFile 的 基础 上 对 key 键 作为 索引 ， 可 以 认为 是 排序 的 SequenceFile 文 件 。 因 此 ， 相 对 SequenceFile 而 言 ，MapFile 的 检索 效率 是 很 高 效 的， 缺点 是 会 消耗 一 部 分 内 存 来 存储 索引 数据 。 同 时 ， 与 
sequenceFile 不 同 的 是 ，MapFile 的 KeyClass 一 定 要 实现 WritableComparable 接 口 ， 即 Key 值 是 可 比较 的 。 


4.MultipleOutputFormat 


MultipleOutputFormat 是 Hadoop 中 的 多 路 输出 处 理 类 ， 通 过 这 个 类 可 以 实现 根据 key 将 记录 控制 输出 到 不 同 的 文件 。MultipleOutputFormat 是 一 个 抽象 类 ， 有 两 个 重要 的 子 类 实现 ， 分 别 是 
MultipleTextOutputFormat 和 MultipleSequenceFileOutputFormat， 可 以 用 于 分 别 类 比 上 面 描述 的 TextOutputFormat 输 出 格式 和 SequenceFileOutputFormat 输 出 格式 。MultipleOutputFormat 类 
图 ， 如 图 5-20 所 示 。 


<T 


FileOutputFormat K Vr 一 - <<bind>> FileOutputFormat 
局 | (mapred) 
™ 


‘<K,VY 
MultipleOutputFormat 
{abstract} 


getRecordWrnter (FileSystem fs, JobConf job, Stnng name, Progressable arg3) : RecordWrter<K, V> 
generateLeafFileName (Stnng name) : Stnng 
generateFileNameForKeyValue (K key, V value, Stnng name) : Stning 
generateActualKey (K key, V value) “KK 


generateActualValue (K key, V value) > 
getlnputFileBasedOutputFileName (JobConf job, Stnng name) : Stnng 
getBaseRecordWniter (FileSystem fs, JobConf job, Stnng name, Progressable arg3) : RecordWrter<K, V> 


和 往 十 


图 5-20 ”MultipleOutputFormat 类 图 


从 图 5-20 中 可 以 看 出 ，MultipleOutputFormat 也 继承 了 FileOutputFormat 的 基 类 ; 方法 generateLeafFileName(String name) 用 于 产生 新 的 文件 名 ， 是 默认 的 ; 直接 返回 传 入 的 文件 名 name (例如 
part-00000 格 式 文件 名 ) ; 方法 generateFileNameForKeyValue(K key，V value，String name) 是 根据 键 值 对 来 生成 文件 名 的 ， 如 果 用 户 需要 自 定 义 根据 键 值 对 的 值 来 生成 多 种 格式 的 文件 名 ， 可 以 重 写 
这 个 国 数 ; generateActualKey(K key，V value) 和 generateActualValue(K key，V value) 两 个 方法 用 于 获取 输出 数据 中 的 key 和 value; 方法 getlnputFileBasedOutputFileName 就 是 根据 jobconf 配 置 来 
确定 最 终 的 输出 文件 名 ， 需 要 注意 的 是 ， 如 果 参 数 num.of.trailing.legs.to.use 没 有 设置 ， 或 者 设置 为 0， 或 者 为 负数 ， 则 返回 默认 文件 名 ， 如 果 设 置 为 N， 则 在 生成 文件 名 时 会 在 尾部 增加 相应 的 N 值 生成 最 
终 的 文件 名 ; getRecordWriter 和 getBaseRecordWriter 两 个 方法 用 于 获取 RecordWriter 对 象 ， 从 而 将 输出 数据 最 终 写 到 输出 文件 ，getRecordWriter 中 进一步 调用 了 getBaseRecordWriter， 因 此 用 户 在 
写 自 定义 的 MultipleOutputFormat 时 需要 重 写 getBaseRecordWriter 方 法 ，MultipleTextOutputFormat 就 重 写 了 getBaseRecordWriter， 用 于 指定 输出 的 RecordWriter 为 TextOutputFormat 对 象 。 


下 面 使 用 一 个 简单 的 例子 来 说 明 自 定义 MultipleOutputFormat 的 使 用 方法 。 同 样 是 最 经 典 的 词 频 统 计 的 例子 ， 要 实现 一 个 WCMultipleOutputFormat 输 出 格式 类 ， 需 要 根据 单词 首 字 符 的 不 同 输出 不 
同 的 文件 名 。 自 定义 WCMultipleOutputFormat 实 现代 码 如 下 : 


public static class WCMultipleOutputFormat extends 
MultipleOutputFormat<Text, JIntWritable> { 
private TextOutputFormat<K, V> wcoutput = null; 
QOverride 
protected RecordWriter<K, V> getBaseRecordWriter (FileSystem fs, JobConf job, 

String name, Progressable arg3) throws IOException { 

if (wcoutput == null) { 

wcoutput = new TextOutputFormat<K, V>(); 


} 
return wcoutput.getRecordWriter (fs, job, name, arg3); 
} 
QOverride 
protected String generateFileNameForKeyValue (Text key, 
IntWritable value, String name) { 

char c = key.toString() .toLowerCase () .charAt (0); 


if (c >= 'a' && Cc <= '2z') 
return c " “+namet™; 
else if (c>= 'O0'&& C <= '9" ) 
return c+ " "t+namet+"; 
else if (c>= 'A'&& c <= '2' ) 
return c " "+namet™; 
else 
return name; 


在 上 述 代码 中 通过 重 写 getBaseRecordWriter 方 法 来 指定 输出 TextOutputFormat 文 本 文件 格式 ， 通 过 重 写 方法 generateFileNameForKeyValue 来 自 定义 输出 文件 名 ， 然 后 就 可 以 在 main() 函 数 中 通过 
job.setOutputFormat(WCMultipleOutputFormat.class) 来 设置 自 定义 的 多 路 输出 类 型 ， 运 行 结果 中 的 输出 文件 将 类 似 于 以 下 格式 : 


a part-00000 
A part-00000 
1 part-00000 


在 实际 生产 业务 中 往往 需要 结合 自 定义 的 Partitioner 和 MultipleOutputFormat 一 起 生成 多 路 输出 类 型 。 需 要 注意 的 是 ， 新 版 MapReduce API| 中 增加 了 MoultipleOutputs 类 型 的 用 户 自 定义 多 路 输出 
类 ， 使 用 方法 类 似 MultipleOutputFormat。 相 比 于 MultipleOutputFormat 类 型 ，MultipleOutputs 支 持 更 多 的 特性 ， 具 体 如 表 5-1 所 示 。 


表 5-1 MultipleOutputFormat 和 MultipleOutputs 特 性 对 比 


特 性 MultipleOutputs 
文件 名 和 路 径 的 完全 控制 不 支持 
控制 不 同 输出 下 的 不 同 键 值 对 类 型 支持 
相同 作业 下 的 Map 和 Reduce 文 持 
生 个 记录 下 的 多 答 Er 
- 


任何 OutputFormat 不 支持 ， 需 要 子 类 文 持 


从 表 5-1 中 可 以 看 出 ， 新 版 的 MultipleOutputs 类 功能 更 加 灵活 和 强大 。 
5. 输 出 类 型 继承 关系 


除了 上 面 介绍 的 输出 类 型 以 外 ， 还 有 很 多 很 有 用 的 输出 类 型 。 例 如 ， 和 DBlnputFormat 相 对 应 的 DBOutputFormat 输 出 类 ， 主 要 作为 MapReduce 的 输出 直接 写 入 数据 库 中 (例如 MySQL 数 据 库 
表 ) 。 总 的 输出 格式 继承 层次 关系 ， 如 图 5-21 所 示 ， 其 中 的 NullOutputFormat 是 系统 提供 的 空 输 出 类 型 ， 用 于 什么 都 不 输出 的 场景 中 。 
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图 5-21 MapReduce 输 出 格式 继承 层次 


5.5 ”核心 问题 
5.5.1 _ Map 和 Reduce 数 量 


Map 和 Reduce 是 Hadoop 的 核心 功能 ，Hadoop 正 是 通过 多 个 Map 和 Reduce 的 并 行 运行 来 实现 任务 的 分 布 式 并 行 计算 的 。 从 这 个 观点 来 看 ， 如 果 将 Map 和 Reduce 的 数量 设置 为 1， 那 么 用 户 的 任务 就 
没有 并 行 执行 ， 不 过 Map 和 Reduce 的 数量 也 不 能 过 多 ， 因 为 数量 过 多 虽然 可 以 提高 任务 并 行 度 ， 但 是 太 多 的 Map 和 Reduce 也 会 导致 整个 Hadoop 框 架 因 为 过 度 的 系统 资源 开销 而 使 任务 失败 。 所 以 用 户 提 
交 的 Map 和 Reduce 作 业 应 该 在 一 个 合理 的 范围 内 ， 这 样 既 可 以 增强 系统 的 负载 义 衡 ， 也 可 以 降低 任务 失败 的 开销 。 


1.Map 的 数量 


Map 的 数量 通常 是 由 Hadoop 集 群 的 DFS 块 大 小 确定 的 ， 也 就 是 输入 文件 的 总 块 数 。 正 常 的 Map 数 量 的 并 行规 模 大 致 是 每 一 个 Node 是 10~100 个 ， 对 于 CPU 消 耗 较 小 的 作业 可 以 设置 Map 数 量 为 300 个 
左右 ,但 是 由 于 Hadoop 的 每 一 个 任务 在 初始 化 时 需要 一 定 的 时 间 ， 因 此 比较 合理 的 情况 是 每 个 Map 的 执行 时 间 至 少 应 超过 1 分 钟 。 具 体 的 数据 分 片 是 这 样 的 ，InputFormat 在 默认 情况 下 会 根据 Hadoop 集 
群 的 DFS 块 大 小 进行 分 片 ， 每 一 个 分 片 会 由 一 个 Map 任 务 进行 处 理 ， 当 然 用 户 还 是 可 以 通过 mapred.min.split.size 参 数 在 作业 提交 客户 端 进行 自 定义 设置 。 还 有 一 个 重要 参数 就 是 mapred.map.tasks， 这 
个 参数 设置 的 Map 数 量 仅仅 是 一 个 提示 ， 只 有 当 InputFormat 和 确定 了 Map 任 务 的 个 数 比 ， 在 mapred.map.tasks 值 小 时 才 起 作用 。 同 样 ，Map 任 务 的 个 数 也 能 通过 使 用 JobConf 的 
conf.setNumMapTasks(int num) 方 法 来 手动 设置 。 这 个 方法 能 够 用 来 增加 Map 任 务 的 个 数 ， 但 是 不 能 设 定 任务 的 个 数 小 于 Hadoop 系 统 通过 分 割 输入 数据 得 到 的 值 。 当 然 为 了 提高 集群 的 并 发 效率 ， 可 以 
设置 一 个 默认 的 Map 数 量 ， 当 用 户 的 Map 数 量 较 小 或 者 比 本 身 自动 分 割 的 值 还 小 时 ， 可 以 使 用 一 个 相对 较 大 的 默认 值 ， 从 而 提高 Hadoop 集 群 的 整体 效率 。 


其 实 Map 的 数量 本 质 上 是 由 splitSize 决 定 的 ， 计 算 方法 如 下 : 


splitSize=Math.max(minSize, Math.min(goalSize, blockSize)) 


minSize=Math.max(ob.getLong(Cmapred.min.split.size"，1)，minsplitSize) 
goalSize=totalSize/(numSplits==01: numSplits) 


其 中 numsplits 是 用 户 设置 的 map 数 目 ; totalSize 是 文件 总 大 小 ; mapred.min.split.size 参 数 是 用 户 自 定义 的 最 小 切 分 大 小 。 


全 注意 在 输入 数据 源 为 数据 库 的 情况 下 由 用 户 通 过 mapred.map.tasks.nums 直 接 指 定 ， 在 输入 数据 为 HBase 表 的 情况 下 ，map 的 数目 则 等 于 这 个 表 的 region 数 量 。 


Reduce 在 运行 时 往往 需要 从 相关 Map 端 复制 数据 到 Reduce 节 点 来 处 理 ， 因 此 相 比 于 Map 任 务 ，Reduce 节 点 的 资源 是 相对 比较 缺少 的 ， 同 时 相对 运行 较 慢 。 正 确 的 Reduce 任 务 的 个 数 应 该 是 0.95 或 者 
1.75x 节 点 数 xmapred.tasktrackertasks.maximum 参 数值 。 如 果 任 务 数 是 节点 个 数 的 0.95 倍 ， 那 么 所 有 的 Reduce 任 务 都 能 够 在 Map 任 务 的 输出 传输 结束 后 同时 开始 运行 如果 任 务 数 是 节点 个 数 的 1.75 
倍 ， 那 么 高 速 运行 的 节点 会 在 完成 它们 的 第 一 批 Reduce 计 算 任务 之 后 开始 计算 第 二 批 Reduce 任 务 ， 这 样 的 情况 更 有 利于 负载 均衡 。 同 时 需要 注意 增加 Reduce 的 数量 ， 虽 然 会 增加 系统 的 资源 开销 ， 但 是 可 
以 改善 负载 匀 衡 ， 降 低 任务 失败 带 来 的 负面 影响 。 同 样 ，Reduce 任 务 也 能 够 与 Map 任 务 一 样 ， 通 过 设 定 JobConf 的 conf.setNumReduceTasks(int num) 方 法 来 增加 任务 个 数 。 


2.Reduce 数 量 为 零 


有 些 作业 不 需要 进行 归 约 和 人 处理， 那么 就 可 以 设置 Reduce 的 数量 为 0 来 进行 处 理 ， 在 这 种 情况 下 用 户 的 作业 运行 速度 相对 较 快 ，Map 的 输出 会 直接 写 入 SetOutputPath(path) 设 置 的 输出 目录 中 ， 而 不 
是 作为 中 间 结 果 写 到 本 地 ， 同 时 Hadoop 计 算 框架 在 写 入 文件 系统 前 并 不 对 其 进行 排序 。 


5.5.2 ”作业 配置 


在 旧版 API 接 口中 作业 配置 通过 JobConf 完 成 ， 在 新 版 API 接 口中 通过 Job 类 对 象 完成 ， 其 本 质 上 代表 一 个 Map/Reduce 作 业 的 配置 ， 是 用 户 向 Hadoop 框 架 描述 一 个 Map/Reduce 作 业 如 何 执行 的 主要 
接口 。 框 架 会 按照 JobConf(Job) 描 述 的 信息 忠实 地 去 尝试 完成 这 个 作业 ， 然 而 ,一 些 参 数 可 能 会 被 管理 者 标记 为 final， 这 意味 着 它们 不 能 被 更 改 。 一 些 作业 的 参数 可 以 直截了当 地 进行 设置 ( 例 
如 ，setNumReduceTasks(int)) ， 而 另 一 些 参数 则 与 框架 或 作业 的 其 他 参数 之 间 微 妙 地 相互 影响 ， 并 且 设 置 起 来 比较 复杂 (例如 ，setNumMapTasks(int)) 。 作 业 配 置 的 相关 设置 方法 ， 如 表 5-2 所 示 。 


表 5-2 作业 配置 的 相关 设置 方法 


作业 配置 方法 功能 说 明 
setNumReduceTasks 设置 Reduce 数目 
setNumMapTasks 设置 Map 数目 
setInputFormatClass 议 置 输入 文件 格式 类 
setOutputFormatClass 设置 输出 文件 格式 类 
set MapperClass 设置 Map 类 
setCombinerClass 设置 Combiner 类 
setReducerClass 议 置 Reduce 类 
setPartitionerClass 议 置 Partitioner 类 
setMapOutputKeyClass 改 置 Map 输出 的 key 类 
setMapOutputValueClass 区 置 Map 输出 的 value 类 
setOutputKeyClass 议 置 输出 key 类 
setCompressMapOutput 设置 Map 输出 是 否 压 缩 
setOutputValueClass 芝 置 输出 value 类 
setJobName 必 置 作业 名 字 
setSpeculativeExecution 没 置 是 否 开 居 预 防 性 执行 
setMapSpeculativeExecution 必 置 是 否 开 司 Map 任务 的 预防 性 执行 
setReduceSpeculativeExecution 改 置 是 否 开 司 Reduce 任务 的 预防 性 执行 


在 通常 情况 下 ，JobConf (Job) 会 指明 Mapper、Combiner( 如 果 有 的 话 )、Partitioner、Reducer、InputFormat 和 OutputFormat 的 具体 实现 。 同 时 还 需要 指定 一 组 输入 文件 以 及 输出 文件 路 径 。 


JobConf (Job) 可 有 选择 性 的 对 作业 设置 一 些 高 级 选项 ， 例 如 设置 Comparator， 放 到 DistributedCache 上 的 文件 ， 中 间 结 果 或 作业 输出 结果 是 否 需要 压缩 以 及 怎么 压缩 ， 利 用 用 户 提供 的 脚本 进行 调 
试 ， 作 业 是 否 人 允许 预防 性 (speculative) 任 务 的 执行 ， 每 个 任务 最 大 的 尝试 次 数 ， 一 个 作业 能 容忍 的 任务 失败 的 百分比 ， 等 等 。 


5.5.3 ”作业 执行 和 环境 


TaskTracker 是 在 一 个 单独 的 JVM 上 以 子 进程 的 形式 执行 MappeVReducer 任 务 (Task) 的 。 子 任务 会 继承 父 TaskTracker 的 环境 。 用 户 可 以 通过 JobConf 中 的 Mapred.childjava.opts 配 置 参 数 来 设 定 
子 JVM 上 的 附加 选项 ， 例 如 通过 -Djava.library.path= < > 将 一 个 非 标 准 路 径 设 为 运行 时 的 链接 以 搜索 共享 库 等 。 如 果 mapred.child.java.opts 包 含 一 个 符号 @taskid@， 它 会 被 替换 成 Map/Reduce 的 taskid 
的 值 。 


下 面 是 一 个 包含 多 个 参数 和 蔡 换 的 例子 ， 其 中 包括 : 记录 JVM GC 日 志 ; JVM JMX 代 理 程 序 以 无 密码 的 方式 启动 ， 这 样 它 就 能 连接 到 jconsole 上 ， 从 而 可 以 查看 子 进程 的 内 存 和 线程 ， 得 到 线程 的 
dump; 还 把 子 JVM 的 最 大 堆 尺 寸 设 置 为 512MB， 并 为 子 JVM 的 java.library.path 添 加 了 一 个 附加 路 径 。 


<property> 
<name>Mapred.child.java.opts</name> 
<value> 
-Xmx512M -Djava.library.path=/home/mycompany/1ib 
-Verbose:gc -Xloggc:/tmp/Q@taskid@ .gc 


-Dcom.sun .management .Jjmxremote .authenticate=false 
-Dcom.sun .management .jmxremote.ssl=false 
</value> 

</property> 


用 户 或 管理 员 也 可 以 使 用 mapred.child.ulimit 设 定 运 行 的 子 任务 的 最 大 虚拟 内 存 。mapred.child.ulimit 的 值 以 KB 为 单位 ， 并 且 必 须 大 于 或 等 于 -Xmx 参 数 传 给 JavaVM 的 值 ， 否 则 JVM 会 无 法 启动 。 注 
意 ，mapred.child.java.opts 只 用 于 设置 task tracker 启 动 的 子 任务 。 


${mapred.local.dir}/taskTracker/ 是 task Tracker 的 本 地 目录 ， 用 于 创建 本 地 缓存 和 job。 它 可 以 指定 多 个 目录 (跨越 多 个 磁盘 ) ， 文 件 会 随机 保存 到 本 地 路 径 下 的 某 个 目录 。 当 job 启动 时 ，task 
Tracker 根 据 配 置 文档 创建 本 地 job 目录 。 下 面 介 绍 目录 结构 以 及 作用 。 


1) ${mapred.local.dir}y/taskTracker/archive/ 

分 布 式 缓存 目录 ， 这 个 目录 保存 本 地 的 分 布 式 缓 仔 ， 因 此 本 地 分 布 式 缓存 是 在 所 有 task 和 job 间 共 享 的 。 
2) ${mapred.local.dir}/taskTracker/jobcache/$jobid/ 

这 个 目录 是 本 地 job 目录 。 

3) ${mapred.local.dir}/taskTracker/jobcache/$jobid/work/ 


job 指定 的 共享 目录 。 各 个 任务 可 以 使 用 这 个 空间 作为 暂 存 空间 ， 用 于 它们 之 间 的 共享 文件 。 这 个 目录 通过 job.local.dir 参 数 暴露 给 用 户 。 这 个 路 径 可 以 通过 API JobConf.getJobLocalDir() 来 访问 ,， 它 
也 可 以 作为 系统 属性 被 获得 。 因 此 ， 用 户 (比如 运行 Streaming) 可 以 调用 System.getProperty("job.local.dir") 获 得 该 目录 。 


4) ${mapred.local.dir}y/taskTracker/jobcache/$jobid/jars/ 


存放 jar 包 的 路 径 ， 用 于 存放 作业 的 jar 文 件 和 展开 的 jar。job.jar 是 应 用 程序 的 jar 文 件 ， 它 会 被 自动 分 发 到 各 台 机 器 ， 在 task 启 动 前 会 被 自动 展开 。 使 用 api JobConf.getar() 国 数 可 以 得 到 job.jar 的 位 
置 。 使 用 JobConf.getJar().getParent() 可 以 访问 存放 展开 的 jar 包 的 目录 。 


5) ${mapred.local.dir}/taskTracker/jobcache/$jobid/job.xml 
一 个 job.xml 文 件 ， 本 地 通用 的 作业 配置 文件 。 
6) ${mapred.local.dir}/taskTracker/jobcache/$jobid/$taskid 


每 个 任务 有 一 个 目录 taskid， 该 目录 的 结构 如 下 : 


‘$ {mapred.1local.dir}/taskTracker/jobcache/$jobid/$taskid/job.xml， 一 个 job.xml 文 件 ， 本 地 化 的 任务 作业 配置 文件 。 任 务 本 地 化 是 指 为 该 task 设 定 特定 的 属性 值 。 这 些 值 会 在 下 面具 体 说 明 。 


‘$ {mapred.1local.dir}/taskTracker/jobcache/$jobiqd/$taskid/output， 一 个 存放 中 间 过 程 的 输出 文件 的 目录 。 它 保存 了 由 framwork 产 生 的 临时 MapReduce 数 据 ， 比 如 Map 的 输出 文件 等 。 


[| 


‘${mapred.1local.dir}/taskTracker/jobcache/$jobid/$taskid/work，task 的 当前 工作 目录 。 


${mapred.local.dir}y/taskTracker/jobcache/$jobid/$taskid/work/tmp，task 的 临时 目录 (用 户 可 以 设 定 mapred.child.tmp 属 性 来 为 Map 和 Reduce Task 设 定 临 时 目录 ， 默 认 值 是 ./tmp。 如 果 这 个 
值 不 是 绝对 路 径 ， 它 会 把 task 的 工作 路 径 加 到 该 路 径 前 面 作为 task 的 临时 文件 路 径 ; 如 果 这 个 值 是 绝对 路 径 ， 则 直接 使 用 这 个 值 。 如 果 指定 的 目录 不 存在 ， 会 自动 创建 该 目录 。 之 后 ， 按 照 选项 - 
Djava.io.tmpdir= ' 临 时 文件 的 绝对 路 径 ' 执 行 Java 子 任务 。Pipes 和 Streaming 的 临时 文件 路 径 是 通过 环境 变量 TMPDIR= 'the absolute path of the tmp dir 设 定 的 ) 。 如 果 mapred.child.tmp 有 ./tmp 值 ， 
这 个 目录 会 被 创建 。 


表 5-3 中 的 属性 是 每 个 task 执 行 时 使 用 的 本 地 参数 ， 它 们 保存 在 本 地 化 的 任务 作业 配置 文件 中 。 


表 5-3 task 执行 时 使 用 的 本 地 参数 


的 
浊 
人 一 


参数 名 称 摘 述 说 明 


型 
mapred job id jobid 
mapred.jar job 目录 下 job.jar 的 位 置 
job.local.dir job 指定 的 共有 至 存储 空间 
mapred.tip.1d task 1d 
mapred.task.1d task 尝试 id 
mapred.task.is.Map 是 人 奋 是 Map task 
mapred.task.partition task 在 job 中 的 id 
(组 ) 


参数 名 称 类 型 描述 说 明 
map.input.file Map 庶 取 的 文件 名 
map.input.start Map 输入 的 数据 块 的 起 始 位 置 侦 移 
map.input.length Map 输入 的 数据 块 的 字 市 数 
mapred.work.output.dir task 临时 输出 目录 


task 的 标准 输出 流 和 错误 输出 流 会 被 读 到 TaskTracker 中 ， 并 且 记 录 到 ${HADOOP LOG DIR}/userlogs，DistributedCache 可 用 于 在 Map 或 Reduce Task 中 分 发 jar 包 和 本 地 库 。 子 JVM 总 是 把 当前 工 
作 目 录 加 java.library.path 和 和 LD_LIBRARY_PATH 中 。 因 此 ， 可 以 通过 System.loadLibrary 或 者 System.load 装 载 缓存 库 。 


5.5.4 “作业 容错 机 制 


MapReduce 作 为 一 个 通用 的 并 行 计 算 框架 ， 有 着 非常 健壮 的 容错 机 制 ， 在 不 同 的 粒度 上 均 有 考虑 ， 这 些 容错 粒度 包括 : JobTracker、TaskTracker、Job、Task、Record 等 级 别 。 由 于 目前 的 Hadoop 
还 是 单 Master 设 计 ， 一 个 集群 中 只 有 一 个 JobTracker， 一 旦 JobTracker 出 现 错误 往往 需要 人 工 介入 ， 但 是 用 户 还 是 可 以 通过 一 些 参数 进行 控制 从 而 让 所 有 作业 恢复 运行 。TaskTracker 的 容错 则 通过 心跳 检 
测 、 黑 名 单 、 灰 名 单机 制 来 对 失效 的 TaskTracker 节 点 进行 及 时 处 理 达 到 容错 效果 。 同 时 Hadoop 还 可 以 通过 不 同 的 参数 配置 来 保证 Job、Task 以 及 Recoerd 等 级 别 的 容错 。 下 面 将 从 三 个 角度 来 讲述 
MapRedcue 中 的 容错 机 制 。 


1. 再 执行 


用 户 的 一 个 MapReduce 作 业 往 往 是 由 很 多 任务 组 成 的 ， 只 有 所 有 的 任务 执行 完毕 才 算是 整个 作业 成 功 。 对 于 任务 的 容错 机 制 ，MapReduce 采 用 最 简单 的 方法 进行 处 理 ， 即 “再 执行 ”， 也 就 是 说 对 于 
失败 的 任务 重新 调度 执行 一 次 。 一 般 有 以 下 两 种 情况 需要 再 执行 。 


第 一 种 情况 : 如 果 是 一 个 Map 任 务 或 Reduce 任 务 失败 了 ， 那 么 调度 器 会 将 这 个 失败 的 任务 分 配 到 其 他 节点 重新 执行 。 


第 二 种 情况 : 如 果 是 一 个 节点 死机 了 ， 那 么 在 这 台 死 机 的 节点 上 已 经 完成 了 运行 的 Map 任 务 及 正在 运行 中 的 Map 和 Reduce 任 务 都 将 被 调度 重新 执行 ， 同 时 在 其 他 机 器 上 正在 运行 的 Reduce 任 务 也 将 被 
重新 执行 ， 这 是 因为 这 些 Reduce 任 务 所 需要 的 Map 的 中 间 结 果 数 据 因为 那 台 失效 的 机 器 而 丢失 了 。 


2. 推 测 式 执行 


在 MapReduce 中 ， 影 响 一 个 作业 的 总 执行 时 间 最 通常 的 因素 是 “落伍 者 ”: 在 运算 过 程 中 ， 如 果 有 一 台 机 器 人 花 了 很 长 的 时 间 才 完成 最 后 几 个 Map 或 Reduce 任 务 ， 导 致 MapReduce 任 务 总 的 执行 时 间 
超过 预期 。 出 现 “ 落 伍 者 ”的 原因 非常 多 ，CPU、 内 和 存 、 本 地 硬盘 和 网 络 带 宽 等 竞争 因素 都 可 能 会 导致 某 些 Map 或 者 Reduce 任 务 执行 效率 更 加 缓慢 。 这 些 “ 落 伍 者 ”的 任务 最 有 可 能 成 为 失败 的 任务 ， 同 
时 这 些 任 务 最 后 即使 没有 失效 ， 也 会 延长 整个 作业 的 最 终 完 成 时 间 ， 对 于 这 种 情况 MapReduce 采 用 推测 式 执 行 策略 。 


所 谓 推测 式 执 行 策略 就 是 MapReduce 对 每 一 个 任务 都 计算 它 的 进度 ， 如 果 一 个 任务 的 进度 远 远 慢 于 其 他 的 任务 时 ， 那 么 这 个 任务 便 可 以 被 认为 是 一 个 “落伍 者 ”。 在 发 现 一 个 “落伍 者 ”任务 后 ， 调 
度 器 会 在 其 他 的 节点 上 重新 调度 这 个 任务 以 重新 执行 。 在 这 个 时 候 ， 一 般 会 有 两 个 相同 的 任务 在 同时 执行 ， 最 终 先 完成 的 那个 任务 就 算 成 功 了 ， 而 没有 完成 的 那个 任务 就 会 被 杀 死 。 


MapReduce 通 过 这 种 推测 式 执行 的 方式 ， 很 好 地 改善 了 由 于 慢 任务 拖 玫 整个 作业 的 执行 进度 的 问题 ， 缩 短 了 作业 的 执行 时 间 ， 这 种 方式 可 以 认为 是 一 种 预防 性 容错 。 
3. 容 错 参 数 


Hadoop 是 一 个 可 配置 性 很 强 的 计算 平台 ， 针 对 容错 机 制 也 为 用 户 留 了 参数 控制 入 口 ， 通 过 对 这 些 容错 参数 的 使 用 可 以 更 好 地 对 MapReduce 的 容错 机 制 进行 控制 ， 从 而 更 好 地 满足 生产 环境 的 需求 。 相 
关 的 容错 参数 ， 如 表 5-4 所 示 。 


表 5-4 相关 的 容错 参数 说 明 


参数 名 称 默 认 值 参数 意义 说 明 
值 为 true 时 JobTracker 重启 之 前 运行 的 Job 
mapred.jobtracker.restart.recover false 可 以 在 JobTracker 重启 之 后 恢复 ; 值 为 false 则 
震 要 重新 运行 


保存 Job 历史 日 志文 件 的 大 小 ，Job 的 恢复 就 


mapred.iobtracker.iob.history.block.size 3145728 
ey 是 使 用 这 些 历史 日 志 


$ {hadoop.log.dir}/ 


hadoop.job.history.location Job 指定 的 共 孚 存储 空间 


history 
如 采 TaskTracker 超过 此 时 间 间 隔 没 有 加 
mapred.tasktracker.expiry.interval 10min JobTracker 汇报 心跳 ， 则 JobTracker 视 之 为 死 
亡 ， 并 将 之 从 调度 池 中 吻 除 
A 3 小 时 时 间 窗 口 ， 计 算 该 时 间 内 失败 的 Task 个 数 
-Window 

bad TaskTracker 国 值 ， 如 采 一 个 TaskTracker 
在 时 间 窗 口内 失败 的 个 数 超过 该 国 仁 ， 则 认为 
该 TaskTracker 是 bad TaskTracker 

如 果 一 个 bad TaskTracker 失败 的 Task 个 数 超 
mapred.cluster.average.blacklist.threshold 0.5 过 了 所 有 TaskTracker 平均 值 的 这 个 值 的 倍数 ， 
则 会 加 入 灰 名 单 和 黑 名 单 

一 个 作业 在 某 个 TaskTracker 上 失败 的 Task 
个 数 超过 该 值 ， 则 该 TaskTracker 被 加 到 该 Job 
的 blacklist 中 ， 从 此 不 再 回 该 TaskTracker 分 配 
该 Job 的 Task 

每 个 Map Task 最 多 的 尝试 次 数 

每 个 Reduce Task 最 多 的 尝试 次 数 


mapred.max.tracker.blacklists 


mapred.max.tracker.failures 


mapred.map.max.attempts 


mapred.reduce.max.attempts 


\ 
NS 


参数 名 称 默 认 值 参数 意义 说 明 


跳 过 的 坏 记 录 条 数 (数据 格式 不 对 ， 空 记录 
mapred.skip.map.max.skip.records 等)。 当 遇 到 坏 记 录 时 ，Hadoop 尝试 跳 过 的 最 
多 记录 条 六 


mapred.map.tasks.speculative.execution true 是 否 启 用 Map 任务 推测 式 执行 


mapred.reduce.tasks.speculative.execution true 昨 否 局 用 Redcue 任务 推测 式 执 行 


通过 表 5-4 中 的 相关 容错 参数 就 可 以 对 不 同 级 别 粒度 的 容错 进行 控制 |。 


5.5.5 ”作业 调度 


算法 模块 中 至 少 涉及 两 个 重要 流程 : 第 一 个 就 是 作业 的 选择 ; 第 二 个 就 是 任务 的 分 配 。 在 Hadoop 中 调度 器 作为 一 个 可 揪 拔 的 组 件 ， 是 相对 独立 的 ， 由 JobTracker 负 责 作 业 的 调度 ， 具 体 的 调度 算法 策略 是 
由 抽象 基 类 TaskScheduler 的 子 类 实现 的 。 


MapReduce 框 架 中 作业 通常 是 通过 JobClient.rubJob(job) 方 法 提交 到 JobTracker，JobTracker 接 收 到 JobClient 的 请 求 后 将 其 加 入 作业 调度 队列 中 。 然 后 JobTracker 一 直 在 等 待 JobClient 通 过 RPC 向 
其 提交 作业 ， 而 TaskTracker 则 一 直通 过 RPC 向 JobTracker 发 送 心跳 信号 询问 有 没有 任务 可 执行 ， 如 果 有 ， 则 请 求 JobTracker 派 发 任务 给 它 执 行 。 如 果 JobTracker 的 作业 队列 不 为 空 ， 则 TaskTracker 发 送 的 
心跳 将 会 获得 JobTracker 向 它 派发 的 任务 。 这 是 一 个 主动 请 求 的 任务 : slave 的 TaskTracker 主 动向 master 的 JobTracker 请 求 任 务 。 当 TaskTracker 接 到 任务 后 ， 通 过 自身 调度 在 本 slave 建 立 起 Task， 执 行 任 
务 。 


目前 在 Hadoop 中 调度 器 主要 包括 JobQueueTaskScheduler (FIFO 调 度 器 ) 、Capacity Scheduler (容量 调度 器 ) 和 Fair Scheduler (公平 调度 器 ) 等 。 下 面 简单 介绍 一 下 这 三 种 调度 器 。 
(1) FIFO 调 度 器 

FIFO 调 度 的 基本 思想 就 是 作业 按照 先后 顺序 统一 放 在 一 个 队列 中 ， 然 后 根据 优先 级 以 及 时 间 的 先后 顺序 依次 调度 执行 ， 总 体 遵 循 先进 先 出 的 基本 调度 策略 。 

(2) 容量 调度 器 


容量 调度 器 也 称 为 计算 能 力 调度 器 ， 是 雅虎 结合 自己 的 集群 业务 类 型 提出 的 一 种 调度 策略 。 这 种 调度 器 支持 多 种 多 列 ， 每 个 队列 都 可 以 单独 配置 一 定 的 资源 量 ， 每 个 队列 采用 FIFO 策 略 。 为 了 防止 同一 
个 用 户 的 作业 独占 队列 中 的 资源 ， 该 调度 器 会 对 同一 用 户 提交 的 作业 所 点 资源 量 进行 限定 ， 支 持 多 用 户 多 队列 。 


(3) 公平 调度 器 


公平 调度 器 是 由 Facebook 开 发 并 贡献 给 开源 社区 的 ， 可 以 是 多 种 作业 并 行 执行 并 共享 资源 池 。 公 平 调度 器 的 目的 就 是 为 了 保证 在 多 用 户 、 多 作业 类 型 的 情况 下 保证 整个 集群 的 资源 利用 率 ， 同 时 可 以 让 
所 有 用 户 公平 地 共享 整个 集群 资源 ， 支 持 多 用 户 、 多 队列 。 


上 面 三 种 调度 器 已 经 集成 到 了 Hadoop 的 发 行 版 中 ， 用 户 可 以 在 配置 文件 nmapred-site.xml 中 在 mapred.jobtrackertaskScheduler 属 性 中 指定 调度 器 ， 并 可 以 结合 mapred-queue-acls.xm| 配 置 ACL。 
关于 更 进一步 的 调度 器 详解 以 及 安装 配置 将 在 后 续 关 于 Hadoop 调 度 的 章节 中 进行 详细 描述 。 


5.6 ”有 用 的 MapReduce 特 性 


5.6.1 计数 器 


Counters 是 多 个 由 Map/Reduce 框 架 或 应 用 程序 定义 的 全 局 计数 器 。 每 一 个 Counter 可 以 是 任何 一 种 Enum 类 型 。 同 一 特定 Enum 类 型 的 Counter 可 以 汇集 到 一 个 组 ， 其 类 型 为 Counters.Group。 应 用 
程序 可 以 定义 任意 (Enum 类 型 ) 的 Counter 并 且 可 以 通过 Map 或 Reduce 方 法 中 的 Reporter.incrCounter(Enum，long) 或 者 Reporter.incrCounter (String，String，long) 进行 更 新 ， 之 后 框架 会 汇总 这 
些 全 局 Counter。 


MapReduce 中 Counter 为 我 们 提供 一 个 观察 MapReduce job 运行 期 的 各 种 细节 数据 视窗 ， 通 过 这 些 Counteri 计 数 器 可 以 从 全 局 的 视角 来 审查 程序 的 运行 情况 ， 及 时 做 出 错误 诊断 并 进行 相应 处 理 。 
Hadoop 内 置 了 很 多 计数 器 ， 这 些 计 数 器 大 体 上 可 分 为 三 组 : 作业 计数 器 ， 文 件 系统 计数 器 和 MapReduce 框 架 计 数 器 ， 下 面 将 分 别 进行 介绍 。 


1. 作 业 计数 器 


我 们 在 一 个 作业 的 web 监 控 界面 中 看 的 Job Counters 就 是 作业 计数 器 ，Job Counters 中 的 计数 器 描述 了 作业 调度 相关 计数 器 的 统计 值 。 作 业 计数 器 的 名 称 及 其 合 义 ， 如 表 5-5 所 示 。 


表 5-5 Job Counters 计 数 器 说 明 


计数 器 名 称 含义 说 朋 
Data-local map tasks 人 行 的 Map Task 数目 
FALLOW SLOTS MILLIS MAPS 前 Job 为 某 些 Map Task 的 执行 保留 了 slot， 总 共 保 留 的 时 间 是 多 少 


FALLOW SLOTS MILLIS REDUCES 


SLOTS MILLIS MAPS 


SLOTS MILLIS REDUCES 


Launched map tasks 


Launched reduce tasks 


少 

当前 Job 为 某 些 Reduce Task 的 执行 保留 了 slot， 总 共 保 留 的 时 间 是 多 
少 

所 有 Map Task 占用 slot 的 总 时 间 ， 包 含 执行 时 间 和 创建 /销毁 子 
JVM 的 时 间 

所 有 Reduce Task 占用 slot 的 总 时 间 ， 包 含 执 行 时 间 和 创建 /销毁 子 
JVM 的 时 间 

此 Job 局 动 了 多 少 个 Map Task 

此 Job 启动 了 多 少 个 Reduce Task 


通过 表 5-5 就 可 以 看 出 用 户 作 业 在 Hadoop 中 被 调度 执行 的 相关 信息 。 


2. 文 件 系统 计数 器 


文件 系统 计数 器 就 是 作业 监控 页 面 中 的 FileSystemCounters， 该 计数 器 主要 描述 了 作业 执行 过 程 中 和 文件 系统 交互 中 的 相关 计数 器 的 统计 值 ， 每 个 计数 器 及 其 合 义 ， 如 表 5-6 所 示 。 


计数 怖 名 称 


FILE BYTES READ 


FILE BYTES WRITIEN 


HDFS BYTES READ 


HDFS BYTES WRITTEN 


表 5-6 ”FileSystemCounters 计 数 器 说 明 
含义 说 阴 

Job 读 取 本 地 文件 系 这 的 文件 字 节 数 。 假 如 当前 Map 的 输入 数据 都 来 自 于 
HDFS， 那 么 在 Map 必 外 段 ， 这 个 数据 应 该 是 0。 但 在 Reduce 执行 前 ， 它 的 输入 数 
据 经 过 shuffle 的 merge 后 存 入 在 Reduce 端 本 地 磁盘 中 ， 所 以 这 个 数据 就 是 所 有 
Reduce 的 总 输入 字 节 数 

Map 的 中 间 结 果 会 spill 到 本 地 磁盘 中 ， 在 Map 执行 完 后 ， 形 成 最 终 的 spill 文 
件 。 所 以 Map 冰 的 数据 就 表示 Map Task 总 共 往 本 地 磁盘 中 写 了 多 少 字 节 。 与 Map 
六 相 对 应 的 是 ，Reduce 亲 在 shuffle 时 ， 会 不 断 地 拉 取 Map 冰 的 中 间 结 果 ， 然 后 做 
merge 并 不 断 spill 到 自己 的 本 地 磁盘 中 ， 最 终 形成 一 个 单独 的 文件 ， 这 个 文件 就 是 
Reduce 的 输入 文件 

在 整个 Job 执行 过 程 中 ， 只 有 Map 运行 时 ， 才 从 HDFS 庶 取 数 据 ， 这 些 数 
据 不 限于 源 文件 内 容 ， 还 插 所 有 Map 的 split 元 数据 ， 所 以 这 个 值 应 该 比 
FileInputFormatCounters.BYTES READ 要 了 略 2 

Reduce 的 最 终结 果 都 会 写 人 HDFS ， 就 是 一 个 Job 执行 结果 的 总 量 


用 户 通过 表 5-6 可 以 看 出 ， 作 业 在 执行 过 程 中 和 文件 系统 相关 的 计数 器 。 


3.MapReduce 框 架 计 数 器 


MapReduce 框 架 计数 器 就 是 作业 的 Web 监 控 页 面 的 MapReduce Framework 部 分 ， 这 部 分 计数 器 描述 的 是 MapReduce 框 架 中 用 户 在 作业 执行 过 程 中 的 细节 数据 。 相 关 计数 器 说 明 ， 如 表 5-7 所 示 。 


表 5-7 MapReduce Framewotk 计 数 器 说 明 


计数 怖 名 称 含义 说 明 
Map input records 所 有 Map Task 从 HDFS 读 取 的 文件 总 行 数 
Map Task 的 直接 输出 record 是 多 少 ， 就 是 在 map 方法 中 调用 context.write 的 次 数 ， 
也 就 是 未 经 过 Combine 时 的 原生 和 六 数 
Map 的 输出 结果 key/value 都 会 被 原 列 化 到 内 存 缓冲 区 中 ， 所 以 这 里 的 bytes 指 序 列 
化 后 的 最 终 字 节 数 之 和 


Map output records 


Map output bytes 


Merged Map outputs 记录 铸 shuffle 过 程 中 总 共 经 历 了 多 少 次 merge 动作 
spill 过 程 在 Map 和 Reduce 端 都 会 发 生 ， 这 里 统计 总 共 从 内 存 回 磁盘 中 spill 了 : 
Spllled Records 数据 
条 类 站 


Combiner 是 为 了 尽量 减少 需要 拉 取 和 移动 的 数据 ， 所 以 combine 输入 条 数 与 Map 的 
输出 条 数 是 一 致 的 

经 过 Combiner 后 ， 相 同 key 的 数据 i 1 人 在 Map 闹 目 己 解 决 了 很 多 午 复 数据 ， 
表示 最 终 在 Map 端 中 间 文 件 中 的 所 有 条 


Combine input records 


Combine output records 


计数 器 名 称 合 义 说 朋 


copy 线程 在 抓 取 Map 痪 中 国 效 据 时 ， 因 为 网 络 连 接 措 稼 或 是 IO 异种， 所 引 直 的 
shuffle 错误 次 数 


Failed Shuffles 


GC time elapsed 通过 JMX 攻取 到 执行 Map 与 Reduce 的 于 JVM 总 共 的 GC 了 时间 诊 耗 
Reduce input groups Reduce 总 共 放 取 了 了 多少 个 groups 


如 果 有 Combiner， 奢 么 这 里 的 数值 就 等 于 map 端 Combiner 运算 后 的 最 终 条 数 ， 如 
果 没 有 ， 那 么 就 应 该 等 于 Map 的 输出 条 数 
Reduce output records 所 有 Reduce 执行 后 输出 的 总 条 目 数 

Reduce 师 的 copy 线程 总 共 从 Map 绩 抓 取 了 了 多少 个 中 则 数据 ， 表 示 各 小 Map Task 最 
终 的 中 间 文 件数 总 和 

每 个 Reduce ee 得 人 pe ug 取 数 据 ， 每 个 copy 线程 拉 取 成 功 一 个 Map 的 数 


Reduce input records 


Reduce shuffle bytes 


Shuflled Maps ey 二 
据 ， 束 增 1， 所 以 此 的 圣 本 每 于 Reduce number x Map number 
- spill 过 程 在 Map ee Reduce 果 有 空 发 生 ， 这 里 统计 总 共 从 内 丰 问 磁盘 中 spill 了 多 少 
Spilled Records 条 数据 
余 妇 看 


与 Map Task 的 split 相关 的 数据 都 会 保存 于 HDFS 中 ， 而 在 保存 时 元 数据 相应 存 
SPLIT RAW BYTES | 储 的 数据 是 以 怎样 的 压缩 方式 放 人 的 ， 它 的 具体 类 型 是 什么 ， 这 些 额外 的 数据 是 
MapReduce A 与 job 无 关 ， 这 里 记录 的 大 小 就 是 表示 额外 信息 的 宇 节 数 大 小 

CPU time spent CPU 消耗 的 总 时 间 
Physical memory(bytes 

. Sin 使 用 的 物理 内 存 ， 单 位 bytes 
snapshot 

Virtual memory (bytes Ee ih i 
A 使 用 的 虚拟 内 和 存 ， 单 位 bytes 

snapshot 

通过 表 5-7 中 的 相关 计数 器 的 值 就 可 以 看 出 用 户 在 作业 运行 过 程 中 的 各 种 详细 参数 统计 值 ， 这 对 于 作业 的 执行 分 析 很 有 意义 。 

当然 在 Hadoop 中 除了 上 述 内 置 的 各 种 计数 器 之 外 ， 用 户 还 可 以 自 定 义 计数 器 ，Counter 类 为 用 户 自 定 义 计 数 器 提供 了 方便 ， 通 过 Counter 中 的 getCounter() 方 法 可 以 得 到 相应 的 计数 器 并 通过 
increment() 方 法 对 计数 器 进行 自 加 ， 非 常 方便 。 


5.6.2 DistributedCache 


DistributedCache (分 布 式 缓存 ) 是 MapReduce 计 算 框架 提供 的 功能 ， 能 够 缓存 应 用 程序 所 需 的 文件 (包括 文本 、 档 案 文 件 、jar 文 件 等 ) 。 可 将 具体 应 用 相关 的 、 大 尺寸 的 、 只 读 的 文件 有 效 地 分 发 
到 各 个 计算 节点 ， 应 用 程序 只 需要 在 JobConf 中 通过 url(hdfs: //) 指 定 需要 被 缓存 的 文件 。 需 要 注意 的 是 ， 要 使 用 DistributedCache 需 要 将 相关 文件 复制 到 Filesystem 上 ， 例 如 HDFS 上 。 


MapRedcue 框 架 在 作业 的 所 有 任务 执行 之 前 会 把 必要 的 文件 复制 到 slave 节 点 上 。 它 运行 高 效 是 因为 每 个 作业 的 文件 只 复制 一 次 并 且 为 那些 没有 文档 的 slave 节 点 缓存 文档 。DistributedCache 根 据 缓存 
文档 修改 的 时 间 截 进行 追踪 。 在 作业 执行 期 间 ， 当 前 应 用 程序 或 外 部 程序 不 能 修改 缓存 文件 。 


DistributedCache 可 以 分 发 简单 的 只 读数 据 或 文本 文件 ， 也 可 以 分 发 复杂 类 型 的 文件 ， 例 如 归档 文件 和 和 jar 文件。 归档 文件 (zip、tar、tgz 和 tar.gz 文 件 ) 在 slave 节 点 上 会 被 解 档 (un-archived) 。 这 
些 文件 可 以 设置 执行 权限 。 


用 户 可 以 通过 设置 参数 属性 mapred.cache.{ffileslarchives} 来 分 发 文件 。 如 果 要 分 发 多 个 文件 ， 可 以 使 用 逗号 分 隔 文 件 所 在 的 路 径 ， 也 可 以 利用 APl 来 设置 该 属性 : 


DistributedCache.addCacheFile (URI, conf) 
DistributedCache.addCacheArchive (URI, conf) 
DistributedCache.setCacheriles (URIs, conf) 
DistributedCache.setCacheArchives (URIs, conf) 


其 中 URI 的 形式 是 hdfs://host: port/absolute-path#link-name。 在 Streaming 程 序 中 ， 可 以 通过 命令 行 选项 -cacheFile 或 者 -cacheArchive 来 分 发 文件 。 一 个 调用 Java API 的 例子 如 下 : 


Configuration conf = new Configuration(); 
DistributedCache.addCacheFile (new URI (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/...), conf); 


Job job = new Job (conf, "MyJob"); 


然后 用 户 在 自己 的 Map0 浮 数 中 进行 读 取 。 上 述 Java API 例 子 中 的 代码 可 以 放 在 Map 类 的 setup 逊 数 中 进行 加 载 ， 核 心 代码 如 下 : 


public class MyMapper extends Mapper<K, V, K, V>{ 
public void setup (Context context) throws IOException 1{ 
Configuration conf = context .getConfiguration () ， 
URI[] localFiles = DistributedCache.getCacheFiles (conf) ， 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/... 


用 户 可 以 通过 DistributedCache.createSymlink(Configuration) 方 法 让 DistributedCache 在 当前 工作 目录 下 创建 到 缓存 文件 的 符号 链接 ， 或 者 通过 设置 配置 文件 属性 mapred.create.symlink 为 yes。 
分 布 式 缓存 会 截取 URI 的 片段 作为 链接 的 名 字 。 例 如 ，URI 是 hdfs://namenode:port/lib.so.1#|lib.so， 则 在 task 当 前 工作 目录 中 会 有 名 为 lib.so 的 链接 ， 它 会 链接 分 布 式 缓 存 中 的 lib.so.1。 


DistributedCache 可 在 MapReduce 任 务 中 作为 一 种 基础 软件 分 发 机 制 使 用 。 它 可 以 被 用 于 分 发 jar 包 和 本 地 库 (native libraries) 。 
DistributedCache.addArchiveToClassPath(Path，Configuration) 和 DistributedCache.addFileToClassPath(Path，Configuration)API 能 够 被 用 于 缓存 文件 和 jar 包 ， 并 把 它们 加 入 道子 JVM 的 classpath 


中 ， 也 可 以 通过 设置 配置 文档 里 的 属性 mapred.job.classpath.ffiles|archives} 达 到 相同 的 效果 。 缓 存 文件 可 用 于 分 友和 装载 本 地 库 。 
5.6.3 Tool 


Hadoop 中 的 Tool 接 口 支 持 处 理 常用 的 Hadoop 命 令 行 选项 ，Tool 是 MapReduce 工 具 或 应 用 的 标准 。 应 用 程序 只 处 理 其 定制 参数 ， 要 把 标准 命令 行 选项 通过 ToolRunner.run(Tool，String[]) 委 托 给 
GenericOptionsParser 处 理 。 


Hadoop 命 令 行 的 常用 选项 如 下 : 


-conf <configuration file> 
-D <property=value> 

-fs <local |namenode:port> 
-jt <local|jobtracker:port> 


后 续 章节 在 解释 MapReduce 的 应 用 开发 时 将 详细 介绍 Tool 的 使 用 。 


5.6.4 lsolationRunner 


IsolationRunner 是 帮助 调试 MapReduce 程 序 的 工具 。 使 用 lsolationRunner 的 方法 是 ， 首 先 设置 keep.failed.tasks.files 属 性 为 true (参考 keep.tasks.files.pattern) 。 然 后 ， 登 录 到 任务 运行 失败 的 节 
点 上 ， 进 入 TaskTracker 的 本 地 路 径 运行 IsolationRunner: 


$ cd <local path>/taskTracker/$ {taskid}/work 
$ pin/hadoop org.apache.hadoop.Mapred.IsolationRunner http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/../job.xml 


lsolationRunner 会 把 失败 的 任务 放 在 单独 的 一 个 能 够 调试 的 JVYM 上 运行 ， 并 且 采 用 和 之 前 完全 一 样 的 输入 数据 。 


5.6.5 Profiling 


Profiling 是 一 个 工具 ， 它 使 用 内 置 的 java profiler 工 具 进 行 分 析 获 得 (2~3 个 ) Map 或 Reduce 样 例 运行 分 析 报 告 。 用 户 可 以 通过 设置 属性 mapred.task.profile 指 定 系 统 是 否 采 集 profiler 信 息 。 利 用 API 
JobConf.setProfileEnabled(boolean) 可 以 修改 该 属性 值 。 如 果 设 该 属性 值 为 trtue， 则 开启 profiling 功 能 。profiler 信 息 保存 在 用 户 日 志 目 录 下 。 在 默认 情况 下 ，profiling 功 能 是 关闭 的 。 如 果 用 户 设 定 使 用 
profiling 功 能 ， 可 以 通过 配置 文档 中 的 属性 mapred.task.profile.{mapslreduces} 设 置 要 profile MapReduce task 的 范围 。 设 置 该 属性 值 的 APl 是 JobConf.setProfileTaskRange(boolean，String)， 范 围 的 


默认 值 是 0~ 2。 
用 户 可 以 通过 设 定 配置 文档 中 的 属性 mapred.task.profile.params 来 指定 profiler 配 置 参数 。 修 改 属性 要 使 用 APl 中 的 JobConf.setProfileParams(String)。 当 运行 task 时 ， 如 果 字 符 串 包含 %s。 它 会 被 


蔡 换 成 profileing 的 输出 文件 名 。 这 些 参数 会 从 命令 行 中 传递 到 子 JVM 中 。 默 认 的 profiling 人 参数 为 : -agentlib: hprof=cpu=samples, heap=sites, force=n, thread=y, verbose=n, file=%s。 


5.6.6 ”MapReduce 调 试 


MapReduce 框 架 能 够 运行 用 户 提供 的 用 于 调试 的 脚本 程序 。 当 MapReduce 任 务 失败 时 ， 用 户 可 以 通过 运行 脚本 在 任务 日 志 (例如 ， 任 务 的 标准 输出 、 标 准 错误 、 系 统 日 志 以 及 作业 配置 文件 ) 上 做 后 
续 处 理工 作 。 用 户 提供 的 调试 脚本 程序 的 标准 输出 和 标准 错误 会 输出 为 诊断 文件 。 如 果 需 要 ， 这 些 输出 结果 也 可 以 打印 在 用 户 界 面 上 。 


在 接 下 来 的 内 容 中 ， 我 们 讨论 如 何 与 作业 一 起 提交 调试 脚本 。 为 了 提交 调试 脚本 ， 首 先 要 把 这 个 脚本 分 发 出 去 ， 然 后 还 要 在 配置 文件 中 进行 设置 。 
(1) 如 何 分 发 脚本 文件 
用 户 要 用 DistributedCache 机 制 来 分 发 和 链接 脚本 文件 ， 可 参考 5.6.2 节 中 的 DistributedCache。 


(2) 如 何 提交 脚本 


一 个 快速 提交 调试 脚本 的 方法 是 分 别 为 需要 调试 的 Map 任 务 和 Reduce 任 务 设置 “mapred.map.task.debug.script” 和 “mapred.reduce.task.debug.script” 属 性 的 值 。 这 两 个 属性 的 值 也 可 以 通过 
JobConf.setMapDebugscript(string) 和 JobConf.setReduceDebugscript(string)APl 来 设置 。 对 于 streaming 接 口 ， 可 以 分 别 为 需要 调试 的 Map 任 务 和 Reduce 任 务 使 用 命令 行 选 项 -mapdebug 和 - 
reducedegug 来 提交 调试 脚本 ， 该 脚本 的 参数 是 任务 的 标准 输出 、 标 准 错误 、 系 统 日 志 以 及 作业 配置 文件 。 在 运行 Map/Reduce 失 败 的 节点 上 运行 的 调试 命令 如 下 : 


Sscript $stdout S$stderr $syslog $jobconf 


Pipes 程 序 根据 第 五 个 参数 获得 C+ + 程序 名 ， 因 此 调试 Pipes 程 序 的 命令 如 下 : 


Sscript $stdout S$stderr $syslog $jobconf S$program 
(3) 默认 行为 


对 于 Pipes， 默 认 的 脚本 会 用 gdb 处 理 core dump， 打 印 stack trace 并 给 出 正在 运行 线程 的 信息 。 


5.6.7 ”数据 压缩 


Hadoop 的 MapReduce 框 架 为 应 用 程序 的 写 入 文件 操作 提供 了 压缩 工具 ， 这 些 工具 可 以 为 Map 输 出 的 中 间 数 据 和 最 终 作 业 输 出 数据 (例如 Reduce 的 输出 ) 提供 支持 。 它 还 附带 了 一 些 
CompressionCodec 的 实现 ， 比 如 zlib 和 lzo 压 缩 算法 。Hadoop 同 样 支持 gzip 文 件 格式 。 


考虑 到 性 能 问题 (zlib) 以 及 Java 类 库 的 缺失 (lzo) 等 因素 ，Hadoop 也 为 上 述 压 缩 解压 算法 提供 本 地 库 的 实现 。 

(1) 中 间 输 出 

应 用 程序 可 以 通过 JobConf.setCompressMapOutput(boolean)API 控 制 Map 输 出 的 中 间 结 果 ， 并 且 可 以 通过 JobConf.setMapOutputCompressorClass(Class)API 指 定 CompressionCodec。 
(2) 作业 输出 


应 用 程序 可 以 通过 FileOutputFormat.setCompressOutputUobConf，boolean)API 控 制 输出 是 否 需要 压缩 ， 并 且 可 以 使 用 FileOutputFormat.setOutputCompressorClassUobConf，Class)API 指 定 


CompressionCodec。 
如 果 作 业 输 出 要 保存 成 SequenceFileOutputFormat 格 式 ， 需 要 使 用 SequenceFileOutput-Format.setOutputCompressionType(UobConf，SequenceFile.CompressionType)APl 来 设 定 Sequen- 


ceFile.CompressionType( 例 如 ，Record 或 Block， 默 认 是 Record)。 


5.6.8 优化 


对 于 根据 用 户 输入 文件 块 的 存储 位 置 来 启动 Map worker， 有 一 个 没 提 到 的 就 是 任务 的 粒度 问题 。 在 理想 状态 下 ，Map 和 Reduce worker 的 数目 比 机 器 数量 多 得 多 。 这 样 每 一 个 worker 可 以 通过 执行 大 
量 的 任务 来 提高 动态 的 负载 能 力 (Master 为 执行 得 快 的 机 器 分 配 更 多 的 任务 ， 为 执行 得 慢 的 机 器 分 配 少量 的 任务 ， 从 而 达到 负载 平衡 ) 。 还 有 一 个 就 是 任务 的 backup， 它 可 以 解决 一 些 容错 和 可 靠 性 的 问 
题 ， 除 此 之 外 ， 还 可 以 很 好 地 解决 “ 拖 后 腿 ” 的 问题 。 许 多 worker 在 运行 的 情况 下 ， 当 总 的 计算 任务 快要 结束 时 ， 由 于 worker 的 执行 速度 有 快 有 慢 ， 所 以 每 次 都 被 最 慢 的 几 个 worker 严 重 的 拖 了 后 腿 ， 导 
致 整体 执行 时 间 变 长 。 在 总 体 任务 快 结束 时 ， 假 如 这 个 拖 后 腿 的 worker 有 多 个 相同 的 作为 backup 任 务 运行 在 多 个 机 器 上 ， 运 行 得 最 快 的 那个 结束 了 ， 我 们 就 认为 这 个 worker 结 束 了 ， 从 而 提高 了 执行 速 
度 ， 唯 一 的 代价 是 要 考虑 输出 的 唯一 性 ， 这 个 可 以 通过 原子 的 改名 操作 来 解决 。 这 个 想法 类 似 于 RAID 0， 通 过 镜像 元 余 不 但 能 解决 容错 问题 还 能 提高 读数 据 的 速度 。 通 过 这 样 一 个 解决 拖 后 腿 的 优化 ， 执 行 
时 间 可 以 缩短 近 50%。 


更 多 的 优化 特性 将 在 后 续 的 章节 内 容 中 进一步 讲述 。 


57 天 给 


本 章 首 先 介 绍 了 什么 是 MapReduce， 并 对 MapReduce 的 编程 模型 以 及 实现 思想 进行 了 讲述 ， 我 们 从 中 知道 了 MapReduce 不 仅 是 一 种 分 布 式 的 运算 技术 ， 也 是 简化 的 分 布 式 编程 模式 ， 适 合用 来 处 理 
大 量 数据 的 分 布 式 运算 ， 是 用 于 解决 问题 的 程序 开发 模型 ， 还 是 帮助 开发 人 员 拆 解 问题 的 方法 。MapReduce 模 式 的 思想 是 将 要 执行 的 问题 拆 解 成 Map (映射 ) 和 Reduce (化 简 ) 的 方式 ， 先 通过 Map 程 序 
将 数据 切割 成 不 相关 的 区 块 ， 分 配 (调度 ) 给 大 量 计算 机 处 理 达 到 分 布 运算 的 效果 ， 再 通过 Reduce 程 序 将 结果 汇总 整理 ， 输 出 开发 者 需要 的 结果 。 


同时 我 们 还 讨论 了 MapReduce 的 计算 流程 和 实现 机 制 ， 并 且 对 其 输入 和 输出 格式 进行 了 进一步 的 介绍 。MapReduce 计 算 框架 的 基本 流程 就 是 作业 提交 和 初始 化 ， 即 Map 执 行 阶段 、Reduce 执 行 阶 
段 ， 最 后 将 结果 写 入 分 布 式 文件 系统 ， 在 这 个 过 程 中 使 用 合适 的 输入 和 输出 格式 对 MapReduce 的 运行 效率 是 非常 重要 的 。 


接着 本 章 继续 讨论 了 MapReduce 中 的 一 些 核心 问题 ， 包 括 Map 和 Reduce 的 数量 、 作 业 配 置 、 作 业 执 行 、 容 错 机 制 以 及 作业 调度 等 问题 ， 最 后 针对 MapReduce 中 的 一 些 有 用 的 特性 进行 了 讨论 ， 包 括 
计数 器 、 分 布 式 缓存、Tool 工 具 、lsolationRunner、Profiling、 调 试 、 数 据 压缩 等 ， 了 解 并 熟悉 这 些 特性 对 于 进一步 学 习 MapReduce 是 非常 必要 的 ， 可 以 帮助 用 户 更 好 地 使 用 MapReduce。 
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类 似 于 Linux 系 统 ，Hadoop 也 有 非常 完备 的 系统 命令 ， 学 习 并 掌握 这 些 命令 的 使 用 也 是 非常 重要 的 。 本 章 将 总 结 Hadoop 中 的 常用 命令 及 使 用 方法 ， 读 者 可 通过 学 习 Hadoop 命 令 对 它 有 一 个 完善 的 认 
识 和 理解 。 


6.1 Hadoop 命 令 系 统 的 组 成 


在 Hadoop 命 令 系统 中 所 有 的 命令 都 是 由 Hadoop 安 装 目录 下 的 bin/hadoop 脚 本 触发 的 ， 其 命令 通用 语法 组 成 如 下 : 


hadoop [--config confdqir] command [genericoptions] [commandOoptions] 


可 以 看 出 其 命令 语法 是 由 各 个 参数 组 成 的 ，Hadoop 本 身 有 一 个 选项 解析 框架 用 于 解析 一 般 的 选项 和 运行 


洋 


这 四 个 参数 的 意义 参照 表 ， 如 表 6-1 所 示 。 


参数 名 称 
--Conflg confdir 
command 
genericOptions 


commandOptions 


表 6-1 中 的 [command] 就 是 本 章 所 讲 的 Hadoop 命 令 名 称 ， 


命令 名 称 
namenode -format 
secondarynamenode 
NameNode 
DataNode 
dfsadmin 
mradmin 
fsck 
fs 
balancer 
fetchdt 
JobTracker 
pipes 
tasktracker 
historyserver 
Job 
queue 
version 
Jar 
distcp 
archive 
classpath 
daemonlog 


CLASSNAME 


Hadoop 配置 文件 目录 ， 默 认为 ${HADOOP HOME}/conf 


Hadoop 中 的 各 种 命令 名 称 
Hadoop 退 用 选项 


命令 选项 


目前 所 支持 的 命令 名 称 及 功能 描述 ， 如 表 6-2 所 示 。 


表 6-2 Hadoop 支 持 的 命令 名 称 及 功能 描述 


功能 描述 
格式 化 分 布 式 文件 系统 HDFS 命令 
分 布 式 文件 系统 HDFS 的 第 二 名 称 节点 命令 
操作 分 布 式 文件 系统 HDFS 的 名 称 节点 命令 


分 布 式 文件 系统 HDFS 的 数据 节点 DataNod 命令 


分 布 式 文件 系统 的 管理 客户 端 命令 
MapReduce 管理 客户 端 命令 

分 布 式 文件 系统 HDFS 检查 工具 命 
通用 的 文件 系统 shell 命令 客户 端 命 
集群 负载 均衡 工具 命令 


从 HDFS 的 NameNode 获取 一 个 代表 团 令 牌 命令 


运行 MapReduce 的 JobTracker 闻 点 命令 
运行 一 个 pipes 作业 命令 
运行 MapReduce 的 tasktracker 节点 命令 


运行 一 个 historyserver 服务 作为 独立 的 守护 进程 


用 于 和 MapReduce 作业 交互 的 命令 
得 到 关于 作业 队列 JobQueues 相关 的 信息 
< Hadoop 版 本 信息 

运行 一 个 j 生 文件 从 全 
用 于 大 规模 集群 内 部 和 集群 之 间 复 制 的 工具 
创建 Hadoop 档案 文件 命令 
打印 Hadoop 所 需要 的 jar 和 类 库 的 路 径 
获取 /设置 每 个 守护 进程 的 日 志 级 别 
运行 CLASSNAME 指定 的 类 


从 表 6-2 可 以 看 到 目前 Hadoop( 版 本 Hadoop-1.0.x) 所 支持 的 命令 ， 本 章 后 续 内 容 将 详细 介绍 其 功能 以 及 使 用 语法 。 


在 表 6-1 中 的 [genericOptions] 用 于 指定 Hadoop 的 一 些 通用 选项 ， 例 如 集群 信息 等 ， 具 体内 容 ， 如 表 6-3 所 示 。 


参数 选项 名 称 
-conf <contiguration file> 
-D <property=value> 
-fs <locallnamenode:port> 
-]Jt <localljobtracker:port> 
-files < 逗号 分 隔 的 文件 列表 > 


表 6-3 ”genericOptions 命 令 选 项 说 明 


指定 应 用 程 夺 的 配置 文件 

为 指定 property 指定 值 value 

指定 NameNode 以 及 端口 号 

指定 JobTracker 以 及 病 口 号， 只 适用 于 job 

指定 要 复制 到 MapReduce 集 和 的 文件 的 逗号 分 隔 列 表 ， 


参数 选项 名 称 参数 选项 意义 摘 述 


-libjars < 逗 分 隔 的 jar 列表 > 指定 要 包含 到 classpath 中 的 jar 文件 的 逗号 分 隐 列 表 ， 只 适用 于 job 
-archives< 逗号 分 隔 archive 列表 : 指定 要 被 解压 到 计算 节点 上 的 档案 文件 的 逗号 分 隔 列 表 ， 只 适用 于 job 


AR I， 需要 注意 的 是 如 果 用 户 的 程序 或 命令 需要 支持 [genericOptions]， 则 必须 实行 Hadoop 的 Tool 接 口 来 支 


持 。 下 面 将 这 些 命令 系统 分 类 进行 介 


6.2 用 PS 


使 用 Hadoop 平 台 的 用 户 称 为 Hadoop 的 普通 用 户 ， 一 般 的 Hadoop 普 通用 户 人 至少 具 有 访问 操作 Hadoop 的 权限 ， 包 括 访 问 HDFS， 以 及 使 用 MapReduce 计 算 系统 的 权限 ， 本 节 将 介绍 Hadoop 普 通用 户 
可 以 使 用 的 基本 命令 。 


1.archive 


archive 命 令 用 于 创建 HDFS 上 的 归档 文件 ， 使 用 语法 如 下 : 


hadoop archive -archiveName NAME -p <parent path> <src>* <dest> 


最 终 通 过 Java 调 用 执行 org.apache.hadoop.tools.HadoopArchives 类 完成 与 归档 相关 的 操作 ， 参 数 意义 及 详细 使 用 方法 可 以 参考 4.2.2 节 中 关于 archive 使 用 的 内 容 。 
2.fsck 


fsck 是 HDFS 文 件 系统 检查 工具 命令 ， 使 用 语法 如 下 : 


hadoop fsck [GENERIC OPTIONS] \ 
<path> \ 
[-move | -delete | -openforwrite] \ 

[-files [-blocks [-locations | -racks]]] 


xf 
> 
2》 
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通过 Java 调 用 org.apache.hadoop.hdfs.tools.DFSck 类 执行 相关 操作 ， 其 参数 意义 ， 如 表 6-4 所 示 。 


表 6-4 ”fsck 命令 的 参数 选项 说 明 


参数 选项 名 称 参数 选项 意义 描述 参数 选项 名 称 参数 选项 意义 描述 


<path> 俭 查 起 始 目录 打印 出 块 信息 报告 
-moVe 移动 受 损 文 件 到 /lost+found 打印 出 每 个 块 的 位 置信 息 


-openforwrite 打印 出 写 打 开 的 文件 -racks 打印 出 DataNode 的 网 络 拓扑 结构 


-files 打印 出 正 被 检查 的 文件 | 


3.fs 


fs 命令 是 HDFS 的 基本 操作 命令 ， 使 用 语法 如 下 : 


hadoop fs [GENERIC OPTIONS] [COMMAND OPTIONS] 


运行 一 个 常规 的 文件 系统 客户 端 ， 最 终 通 过 Java 调 用 org.apache.hadoop.fs.FsShell 类 执行 相关 HDFS 的 操作 ， 这 个 命令 的 详细 使 用 可 以 参考 4.2.1 节 中 的 相关 内 容 。 
4.job 


这 个 命令 用 于 和 MapReduce 作 业 进 行 交 互 ， 使 用 语法 如 下 : 


hadoop job [GENERIC OPTIONS] \ 

[-submit <job-file>] \ 

[-status <job-id>] \ 

[-counter <job-id> <group-name> <counter-name>] \ 
[-kill <job-id>] \ 

[-set-priority <job-id> <priority>] \ 
[-events <job-id> <from-event-#> <#-of-events>] \ 
[-history <jobOutputDir>] \ 

[-list [all]] \ 
[-list-active-trackers] \ 

[-list-blacklisted-trackers] \ 

[-list-attempt-ids <job-id> <task-type> <task-state>] \ 
[-kill-task <task-id>] \ 

[-fail-task <task-id>] 
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最 终 会 通过 java 调用 org.apache.hadoop.mapred.JobClient 类 来 执行 和 MapReduce 作 业 的 交互 ， 其 参数 选项 的 意义 ， 如 表 6-5 所 示 。 


表 6-5 job 命令 的 参数 选项 说 明 


参数 选项 名 称 参数 选项 意义 描述 


-submit <job-file> 打印 Map 和 Reduce 完成 百分比 和 所 有 计数 着 
-status <job-id> 取消 代表 团 令 牌 token 

-counter <job-id> <group-name> <counter-name> 打印 计数 融 的 什 

-kill <job-id> 未 和 死 指定 作业 

-events <job-id> <from-event-#> <#-of-events> 打印 给 定 范 围 内 JobTracker 接收 的 事件 细 


J 印 作业 的 细节 、 失 败 及 被 杀 死 原因 的 细 ， 


-history [alll <iobOutputDir> -history <1obOutputD1i1r> . ， 
更 多 关于 作业 执行 的 细节 使 用 [all] 选项 


-list [all]-list all 显示 所 有 作业 。-list 只 显示 将 要 完成 的 作业 
-kill-task <task-id> 杀 死 任务 ， 被 杀 死 的 任务 不 会 不 利于 失败 尝试 
-fail-task <task-id> 使 任务 失败 ， 失 败 的 任务 会 对 失败 尝试 不 利 


5.queue 


这 个 命令 用 于 关于 作业 队列 JobQueues 相 关 的 信息 ， 使 用 语法 如 下 : 


hadoop queue <command> <args> \ 
[-list] \ 
[-info <job-queue-name> [-showJobs]] \ 
[-showacls] \ 


queue 命 令 最 终 通 过 Java 调 用 org.apache.hadoop.mapred.JobQueueClient 类 来 执行 相关 操作 ， 其 参数 选项 的 意义 ， 如 表 6-6 所 示 。 


表 6-6 ” queue 命令 参数 选项 说 明 


参数 选项 名 称 参数 选项 意义 描述 


-list 列 出 MapReduce 系统 中 的 所 有 队列 信息 
-lnfo <jJob-queue-name> [-showJobs| 指定 队列 名 以 及 作业 信息 
-showacls 队列 的 ACL 权限 信息 


6.version 
打印 Hadoop 版 本 信息 ， 使 用 语法 如 下 : 


hadoop version 


最 终 调用 org.apache.hadoop.util.VersionInfo 类 完成 Hadoop 版 本 信息 的 显示 。 


7.Jar 


运行 jar 文 件 ， 用 户 可 以 把 自己 的 MapReduce 代 码 打 包 为 jar 文 件 ， 然 后 使 用 这 个 命令 执行 ， 使 用 语法 如 下 : 


hadoop jar <jar> [mainClass] argshttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/... 


最 终 通过 Java 调 用 org.apache.hadoop.util.RunJar 类 工具 来 执行 用 户 的 jar 文 件 。 这 个 命令 是 用 户 提 交 作业 到 集群 运行 时 的 最 常用 的 的 命令 ，Streaming 作 业 正 是 通过 这 个 命令 执行 的 ，2.5.2 节 所 讲述 
的 词 频 统 计 例子 一 一 WordCount 例 子 也 是 通过 jar 命 令 提 交 给 集群 运行 的 。 


8.distcp 


distcp 工 具 是 用 于 大 规模 集群 内 部 和 集群 之 间 复 制 的 工具 ， 是 HDFS 管 理 和 运 维 中 的 一 个 非常 方便 的 工具 ， 它 使 用 MapReduce 实 现 了 文件 分 发 、 错 误 处 理 和 恢复 ， 以 及 报告 生成 。 它 把 文件 和 目录 的 列 
表 作为 Map 任 务 的 输入 ， 每 个 任务 会 完成 源 列 表 中 部 分 文件 的 复制 。 使 用 语法 如 下 : 


hadoop distcp <srcurl> <desturl> 


最 终 将 调用 执行 org.apache.hadoop.tools.distcp 类 完成 分 布 式 复制 ， 具 体 使 用 方法 可 以 参考 第 4 章 的 discp 内 容 。 


9.classpath 


这 个 命令 用 于 打印 Hadoop 所 需要 的 jar 和 类 库 的 路 径 ， 使 用 语法 如 下 : 


hadoop classpath 


最 终 直接 会 打印 Hadoop 中 的 CLASSPATH 环 境 变量 


10.daemonlog 


这 个 命令 用 于 获取 或 设置 每 个 守护 进程 的 日 志 级 别 ， 使 用 语法 如 下 : 


hadoop daemonlog -getlevel <host :Port> <name> 
hadoop daemonlog -setlevel <host:port> <name> <level> 


daemonlog 命 令 最 终 会 通过 Java 调 用 org.apache.hadoop.log.LogLevel 类 来 执行 操作 ， 命 令 选 项 描述 ， 如 表 6-7 所 示 。 


表 6-7 daemonlog 命 令 邻 参数 选项 说 明 


参数 选项 名 称 参数 选项 意义 描述 
ee 条 全 <host:port> 的 守护 进程 的 日 志 级 别 ， 


-getlevel <host:port> <name> , 
“命令 内 部 会 连接 http:// <host:port>/logLevel?log=<name> 


设置 运行 在 <host:port> 的 守护 进程 的 日 志 级 别 ， 


-setlevel <host:port> <name> <level> Wi Wo _ | . 
这 个 命令 内 部 会 连接 http:// <host:port>/logLevel?log=<name> 


11.CLASSNAME 


可 以 使 用 Hadoop 脚 本 调用 执行 任何 类 ， 使 用 语法 如 下 : 


hadoop CLASSNAME, 


类 似 于 java 命 令 ， 可 以 直接 使 用 Hadoop 运 行 类 名 为 CLASSNAME 的 类 。 


6.3 ”管理 员 命令 


Hadoop 管 理 员 一 般 是 指 创建 Hadoop 的 Linux 用 户 ， 也 就 是 所 谓 的 Hadoop 超 级 用 户 ， 其 拥有 Hadoop 系 统 的 最 高 权限 ， 可 以 对 HDFS 以 及 MapReduce 进 行 管理 和 维护 操作 ， 本 节 对 Hadoop 管 理 员 的 


相关 命令 进行 介绍 
1.NameNode 


运行 NameNode 相 关 操 作 命令 ， 包 括 格式 化 HDFS、 升 级 、 回 滚 、 升 级 操作 使 用 语法 如 下 : 


hadoop namenode [-format] | [-upgrade] | [-rollback] | [-finalizel] 
| [-importCheckpoint] 


上 述 命令 最 终 会 通过 Java 调 用 org.apache.hadoop.hdfs.server.namenode.NameNode 类 执行 相关 的 操作 ， 各 参数 选项 意义 描述 ， 如 表 6-8 所 示 。 


表 6-8 NameNode 命 令 参 数 选项 说 明 


参数 选项 名 称 参数 选项 意义 摘 述 
-format 格式 化 NameNode， 它 局 动 NameNode 并 格式 化 NamenNde， 之 后 天 财 NameNode 
-uperade 分 发 新 版 本 的 Hadoop 后 ，NameNode 应 以 upgrade 选项 启动 

(组 ) 
参数 选项 名 称 参数 选项 意义 摘 述 
-rollback 将 NameNode 回 滚 到 前 一 个 版 本 ， 这 个 选项 要 在 俘 止 集群 分 发 旧版 Hadoop 后 使 用 
下 De 于 六 人 A 出 一 状态 ， eae he 的 升级 会 被 持久 化 ，rollback 选项 将 再 不 可 用 ， 
升级 终 : 和 办 一 ， 此 会 停止 NameNode 服务 
-importCheckpoint 从 检查 点 目录 交 载 镜像 并 保存 到 当前 检查 点 目录 ， 检 查 点 目录 由 fs.checkpoint.dir 指定 


需要 注意 的 是 ，NameNode 命 令 是 Hadoop 管 理 员 命令 中 非常 敏感 和 重要 的 运 维 管理 命令 ， 需 要 谨慎 操作 ， 因 为 操作 不 愤 很 可 能 会 导致 集群 HDFS 的 数据 无 法 访问 等 问题 。 
2.secondarynamenode 


运行 HDFS 的 secondarynamenode 相 关 操 作 ， 使 用 语法 如 下 : 


hadoop secondarynamenode [-checkpoint [force]] | [-geteditsizel] 


上 述 命令 最 终 通 过 java 调 用 org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode 类 来 执行 相关 secondarynamenode 的 操作 ， 其 参数 选项 的 意义 说 明 ， 如 表 6-9 所 示 。 


表 6-9 ”secondarynamenode 命 令 参 数 选项 说 明 


如 果 EditLog 的 大 小 三 fs.checkpoint.size， 局 动 secondarynamenode 的 检查 点 过 程 ， 
如 果 使 用 了 -force， 将 不 考虑 EditLog 的 大 小 
-geteditsize 打印 EditLog 大 小 


-checkpoint [torce | 


secondarynamenode 是 为 了 HDFS 的 高 可 用 性 而 设计 的 ， 具 体 功 能 可 以 参考 第 3 章 的 HDFS 架 构 的 相关 内 容 。 
3.DataNode 
运行 HDFS 的 数据 节点 DataNode， 使 用 语法 如 下 : 


hadoop datanode [-rollbackl] 


执行 这 个 命令 最 终 会 通过 java 调用 org.apache.hadoop.hdfs.server.datanode.DataNode 类 执行 相关 操作 ， 参 数 选项 -rollback 的 意义 是 将 DataNode 回 滚 到 前 一 个 版 本 ， 此 操作 需要 在 停止 DataNode 
分 发 日 的 Hadoop 版 本 之 后 使 用 。 


4.dfsadmin 


HDFS 管 理 客户 端 命令 ， 用 于 对 HDFS 进 行 相关 管理 操作 的 命令 客户 端 ， 使 用 语法 如 下 : 


hadoop dfsadmin 

[-report] 

[-safemode enter | leave | get | wait] 
[-saveNamespace] 

[-refreshNodes] 

[-finalizeUpgrade|] 

[-upgradeProgress status | details | forcel] 

[-metasave filename|] 

[-refreshServiceAcil] 

[-refreshUserToGroupsMappings] 

[-refreshSuperUserGroupsConfiguration] 

[-setQuota <quota> <dirname>http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/...<dirname>] 
[-clrQuota <dirname>http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/...<dirname>] 
[-setSpaceQuota <quota> <dirname>http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/...<dirname>] 
[-clrSpaceQuota <dirname>http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/...<dirname>] 
[-setBalancerBandwidth <bandwidth in bytes Per second>] 

[-help [cmd]] 


hadoop dfsadmin 命 令 最 终 通 过 Java 调 用 org.apache.hadoop.hdfs.tools.DFSAdmin 类 来 执行 对 HDFS 的 管理 操作 ， 参 数 选 项 意义 说 明 ， 如 表 6-10 所 示 。 


表 6-10 dfsadmin 命 令 参 数 选项 说 明 


数 选 项 名 称 参数 选项 意义 描述 
-report 报告 文件 系统 的 基本 信息 和 统计 信息 
安全 模式 维护 命令 。 安 全 模式 是 NameNode 的 一 个 状态 ， 这 种 状态 下 
NameNode 的 特点 : 
1 ) 不 接受 对 名 称 空间 的 更 改 ( 只 读 ); 
-safemode enter | leave | get | wait 2 ) 不 复制 或 删除 块 。 
NameNode 会 在 局 动 时 目 动 进入 安全 模式 ， 当 配置 的 块 最 小 百分比 数 
满足 最 小 的 副本 数 条 件 时 ， 会 自动 离开 安全 模式 。 安 全 模式 可 以 手动 
进入 ,但 是 即使 这 样 也 必须 手动 关闭 安全 模式 
重新 读 取 hosts 和 exclude 文件 ， 更 新 允许 连 到 NameNode 


sh 


-refreshNodes 或 那些 需要 退出 或 编 入 的 DataNode 的 集合 
终结 HDFS 的 升级 操作 。DataNode 删除 前 一 个 版 本 的 工作 目录 ， 
-finalizeUpgrade 


之 后 NameNode 也 这 样 做。 这 个 操作 贯穿 整个 升级 过 程 

-upgradeProgress status | details | force 请 求 当 前 系统 的 升级 状态 、 状 态 的 细节 或 者 强制 进行 升级 操作 
保存 NameNode 的 主要 数据 结构 到 hadoop.log.dir 属性 指定 的 
目录 下 的 <filename> 文件 。 对 于 下 面 的 每 一 项 ， 
<filename> 中 都 会 有 一 行内 容 与 之 对 应 : 

-metasave filename 1 ) NameNode 收 到 的 DataNode 的 心跳 信号 ; 

2 ) 等 待 被 复制 的 块 ; 

3 ) 正在 被 复制 的 块 ; 

4 ) 等 待 被 删除 的 块 

为 每 个 目录 <dirname> 设 定 配额 <quota>。 

目录 配额 是 一 个 长 整 型 整数， 强制 限定 了 目录 树 下 的 名 字 个 数 。 

该 命令 会 在 这 个 目录 上 工作 恨 好 ， 遇 到 以 下 情况 会 报错 : 

1 ) N 不 是 一 个 正 整 数 ; 

2 ) 用 户 不 是 管理 员 ; 

3 ) 这 个 目录 不 存在 或 是 文件 不 存在 ; 

4 ) 目录 会 马上 超出 新 设 定 的 配额 


-SetQuota <quota> 
<dirname>...<dirname> 


(组 ) 
参数 选项 名 称 参数 选项 意义 描述 
为 每 一 个 目录 <dirmame> 清除 配额 设 定 。 命 令 会 在 这 个 目录 上 工作 良 
好 ， 遇 到 以 下 情况 会 报销: 
-clrQuota <dirname>...<dirname> 1 ) 这 个 目录 不 存在 或 是 文件 不 存在 ; 


2 ) 用 户 不 是 管理 员 
如 果 目 录 原 来 设 有 配额 不 会 报错 
显示 给 定 命令 的 帮助 信息 ， 如 果 没 有 给 定 命令 ， 则 显示 所 有 命令 的 帮 


-help [cmd] 助 信息 


5.mradmin 


这 个 命令 是 一 个 MapReduce 客 户 端的 管理 命令 ， 使 用 语法 如 下 : 


Hadoop mradmin  [-refreshServiceAc1] \\ 
[-zefreshoueues ] 

-zefreshUserToGroupsMappings] \ 

-TefreshSuperUserGroupsConfiguration]l \ 

-TefreshNoqes] \ 

-help [cmd]] 


这 个 命令 最 终 通 过 Java 调 用 org.apache.hadoop.mapred.tools.MRAdmin 类 来 执行 相关 管理 MapReduce 的 操作 ， 参 数 选 项 意义 说 明 ， 如 表 6-11 所 示 。 


表 6-11 mradmin 命 令 参 数 选项 说 明 


参数 选项 名 称 参数 选项 意义 摘 述 


-refreshServiceAcl 重新 疹 = ACL 认证 文件 
-refreshQueues 册 新 任务 队列 的 信息 
-refreshUserTIoGroupsMappings 刷新 用 户 与 用 户 组 的 对 应 关系 
-refreshSuperUserGroupsConfieuration 刷新 用 户 组 的 配置 

-refreshNodes 刷新 JobTracker 的 主机 配置 信息 


6.balancer 


balancer 命 令 是 一 个 集群 负载 平衡 工具 ，Hadoop 管 理 员 可 以 简单 地 按 Ctrl+C 快 捷 键 来 停止 均衡 过 程 ， 使 用 语法 如 下 : 


hadoop balancer [-threshold <thresholgd>] 


这 个 命令 会 通过 Java 调 用 org.apache.hadoop.hdfs.server.balancer.Balancer 类 来 执行 负载 均衡 操作 ， 命 令 中 的 参数 选项 -threshold<threshold> 的 意义 是 指 磁盘 容量 的 百分比 ， 这 会 覆盖 默认 的 阅 
值 。 


7.fetchdt 


这 个 命令 的 功能 就 是 从 HDFS 的 NameNode 获 取 一 个 代表 团 令 牌 token， 使 用 语法 如 下 : 


fetchdt <opts> <token file> 


最 终 会 通过 Java 调 用 org.apache.hadoop.hdfs.tools.DelegationTokenFetcher 类 来 完成 执行 ， 命 令 中 的 opts 参 数 选 项 的 意义 描述 ， 如 表 6-12 所 示 。 


一 


表 6-12 ”fetchdt 命 令 参 数 选 项 说 明 


参数 选项 名 称 参数 选项 意义 摘 述 
--webservice <url> 连接 到 NameNode 的 URL 
--cancel 取消 代表 团 令 牌 token 
--TeneW 续 订 代表 团 令 牌 token 


命令 中 的 <token file> 为 token 的 文件 路 径 。 


8.JobTracker 


运行 MapReduce JobTracker 节 点 ， 使 用 语法 如 下 : 


hadoop jobtracker 


这 个 命令 最 终 通过 Java 调 用 org.apache.hadoop.mapred.JobTracker 类 执行 。 


9.tasktracker 


运行 MapReduce TaskTracker 节 点 ， 使 用 语法 如 下 : 


hadoop tasktracker 


这 个 命令 最 终 通 过 Java 调 用 org.apache.hadoop.mapred.TaskTracker 类 来 完成 TaskTracker 节 点 的 运行 。 


10.historyserver 


运行 一 个 historyserver 服 务 作为 独立 守护 进程 ， 使 用 语法 如 下 : 


hadoop historyserver 


通过 Java 调 用 org.apache.hadoop.mapred.JobHistoryServer 类 来 完成 history-server 的 运行 。 


xf 
> 
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加 


6.4 疯 由 试 命令 x 


为 了 方面 进行 性 能 和 功能 测试 ，Hadoop 自 带 了 一 些 很 有 用 的 工具 命令 ， 并 打包 为 Hadoop-test-x.y.zjar 形 式 的 jar 包 (x.y.z 为 Hadoop 版 本 号 )， 通 过 Hadoop 命 令 就 可 以 很 容易 地 使 用 。 下 面 以 对 这 些 工 
具 命 令 进行 介绍 (以 Hadoop-1.0.4 版 本 为 例 )。 
1.DFSCIOTest 


用 于 测试 libhdfs 中 的 分 布 式 MO 的 基准 性 能 。libhdfs 是 一 个 为 C/C++ 应 用 程序 提供 HDFS 文 件 服务 的 JNI 接 口 共 享 库 ， 通 过 libhdfs 可 以 很 方便 地 使 用 C/C++ 来 访问 HDFS。 如 果 要 对 其 进行 性 能 测试 可 以 
使 用 DFSCIOTest 命 令 进行 ， 使 用 语法 如 下 : 


hadoop jar SHADOOP HOME/hadoop-test-1.0.4.jar DFSCIOTest 


立信 全 全 全 


这 个 命令 会 调用 org.apache.hadoop.fs.DFSCIOTest 类 对 libhdfs 执 行 分 布 式 的 |/O 基 准 性 能 。 


2.DistributedFSCheck 


用 于 分 布 式 文件 系统 HDFS 的 一 致 性 检查 。HDFSs 是 通过 数据 副本 的 元 余 存 储 来 保证 高 可 靠 性 的 ， 因 此 块 数据 的 一 致 性 就 是 衡量 分 布 式 文 件 系统 的 一 个 很 重要 的 指标 ， 在 Hadoop 中 可 以 通过 命令 
DistributedFSCheck 来 对 HDFS 的 一 致 性 进行 检查 ， 命 令 如 下 : 


hadoop jar S$HADOOP HOME/hadoop-test-1.0.4.jar DistributeqFSCheck 


这 个 命令 最 终 会 调用 org.apache.hadoop.fs.DistributedFSCheck 类 来 执行 对 HDFS 的 一 致 性 进行 检测 |。 


/ 


3.MRReliabilityTest 


这 个 命令 用 于 测试 MapReduce 框 架 的 可 靠 性 。 它 必须 在 分 布 式 模型 下 ， 并 且 测 试 需要 运行 在 一 个 没有 其 他 作业 运行 的 集群 上 ， 执 行 命令 如 下 : 


们 之 


hadoop jar S$HADOOP HOME/hadoop-test-1.0.4.jar \ 


MRReliabilityTest -libjars <path to hadoop-examples.jar> \ 
[-scratchdir <dir>] 


参数 -libjars 需 要 指定 所 需要 的 hadoop-examples-1.0.4.jar 文 件 ， 参 数 -scratchdir 用 于 指定 测试 的 临时 目录 ， 默 认为 当前 工作 目录 。 测 试 启动 后 会 启动 一 个 MapReduce 作 业 ， 然 后 注入 故障 和 错误 来 测 
试 MapReduce 框 架 本 身 的 可 靠 性 。 


4.TestDFSIO 
这 个 命令 用 于 对 Hadoop 分 布 式 文件 系统 HDFS 的 I/O 做 性 能 基准 测试 。Hadoop 是 一 个 并 行 计算 的 批 处 理 系 统 ， 因 此 对 于 HDFS 上 的 读 写 等 |/O 性 能 要 求 是 很 高 的 ， 可 以 通过 TestDFSIO 命 令 进行 测试 ,， 


执行 命令 如 下 : 


hadoop jar hadoop-test-1.0.4.jar TestDFSIO [genericOptions] \ 
-read | -write | -append | -clean \ 

[-nrFiles N] \ 

[-fileSize Size[B|IKB|IMB|CB|TB]] \ 

[-resFile resultFileNamel] \\ 

[-bufferSize Bytes] \ 

[=¥60tDi%| 


注意 ， 上 述 命令 中 的 反 斜 杠 是 因为 命令 参数 太 长 而 让 shell 解 释 器 忽略 换行 符号 ， 最 终 会 调用 org.apache.hadoop.fs.TestDFSIO 类 来 完成 |/O 性 能 的 基准 测试 。TestDFSIO 用 一 个 MapReduce 作 业 来 并 


发 地 执行 读 写 操作 ， 每 个 Map 任 务 用 于 读 或 写 每 个 文件 ，Map 的 输出 用 于 收集 与 处 理 文件 相关 的 统计 信息 ，Reduce 用 于 累积 统计 信息 ， 并 产生 测试 结果 summary 的 信息 。TestDFSIO 命 令 的 参数 选项 意 
义 ， 如 表 6-13 所 示 。 


表 6-13 ”TestDFSIO 命 令 参 数 选项 说 明 


参数 选项 名 称 参数 选项 意义 描述 


参 万 还 

-read | -write | -append | -clean 测试 模式 : 旋 、 写 、 追 加 、 清 除 测 试 数据 
-nrFiles N 测试 写 入 或 者 读 取 的 文件 数量 

-fileSize Size[BIKBIMB|GBITB] 每 个 文件 的 大 小 ， 默 认 单位 为 MB 
-resFile resultFileName 结果 文件 名 

-bufferSize Bytes 指定 绥 存 大 小 


测试 时 先 指 定 -write 参 数 进行 写 入 性 能 测试 ， 然 后 指定 -read 参 数 进行 读 取 性 能 测试 ， 


完成 测试 后 指定 参数 -clean 清 除 测试 中 产生 的 数据 。 人 例如， 测试 HDFS 的 写 入 性 能 ， 指 定 写 入 10 个 文件 ， 每 个 文件 
10GB 大 小 ， 缓 存 64MB 大 小 ， 则 测试 命令 如 下 : 


hadoop jar hadoop-test-0.20.2-cdh3u5.jar TestDFSIO \\ 
-write \ 

-nrFiles 10 \ 

-fileSize 10GB \ 

-bufferSize 67108864 


执行 完成 后 会 生成 HDFS 的 测试 相关 指标 结果 ， 例 如 写 入 效率 ，I/O 吞 吐 率 等 。 


5.dfsthroughput 
这 个 命令 用 于 测试 HDFS 的 吞吐 量 。Hadoop 是 针对 大 数据 设计 的 分 布 式 框架 系统 ， 大 吞吐 量 是 主要 的 设计 目标 之 一 ， 用 户 可 以 使 用 命令 dfsthroughput 对 搭建 后 的 Hadoop 系 统 进行 吞吐 量 的 测试 ， 使 
用 命令 如 下 : 


hadoop jar hadoop-test-1.0.4.jar dfsthroughput [#reps] 


参数 [#reps] 为 测试 命令 dfsthroughput 的 配置 属性 ， 用 户 可 以 自 定义 指定 两 个 配置 属性 ， 如 表 6-14 所 示 。 


表 6-14 dfsthroughput 命 令 配 置 属性 


参数 选项 名 称 
dfsthroughput.file.size 


dfsthroughput.butffer.size 


这 两 个 配置 属性 通过 -D 参 数 自 定 义 加 入 ， 同 时 还 需要 注意 dfsthroughput 命 令 需 


参数 选项 意义 描述 


每 个 读 写 文件 的 大 小 ， 默 认为 10GB 
读 写 缓存 大 小 ， 默 认为 4KB 


要 Hadoop 的 配置 熟悉 mapred.temp.dir 的 支持 ， 如 果 用 户 没 有 在 Hadoop 配 置 中 指定 这 个 值 ， 则 dfsthroughput 命 令 在 
执行 时 会 抛 出 “java.lang.NullPointerException” 异 常 ， 这 时 可 以 通过 -D 参 数 在 命令 中 指定 mapred.temp.dir 的 值 ， 例 如 指定 参数 dfsthroughput.file.size 大 小 为 12GB， 缓 存 为 64KB， 执 行 命令 如 下 : 


hadoop jar hadoop-test-1.0.4.jar dfsthroughput \ 
-Dmapred.temp.dir='/data0/test' \ 
-Ddfsthroughput.file.size=12GB \ 

-Ddfsthroughput .buffer.size=64KB 


执行 完 之 后 会 显示 HDFS 的 吞吐 量 结果 数据 。 


6.filebench 


这 个 命令 用 于 Hadoop 中 的 文件 格式 类 SequenceFilelnputFormat 和 SequenceFileOutputFormat 的 基准 性 能 测试 。 测 试 内 容 包括 BLOCK 压 缩 ，RECORD 压 缩 以 及 非 压缩 的 情况 ， 使 用 命令 如 下 : 


hadoop jar hadoop-test-1.0.4.jar filebench [commandOoptions] 


[commandOptions] 是 命令 filebench 的 参数 选项 ， 具 体内 容 ， 如 表 6-15 所 示 。 


参数 选项 名 称 
-[nolr -[nojw 
-[nolseq -[noltxt 
-[nolzip -[nolpln 
-[nolblk -[nolrec 


-dr <working dir> 


用 户 还 可 以 通知 通用 命令 选项 -D 参 数 指定 一 些 有 用 的 配置 ， 使 用 命令 如 下 : 


-D fs.default.name="file:/// "AN 

-D fs.file.impl=org.apache.hadoop.fs.RawLocalFileSystem \ 
-D filebench.file.bytes=$ ((10*1024*1024*1024)) \\ 

-D filebench.key.words=5 \ 

-D filebench.val .words=20 


表 6-15 ”filebench 命 令 配 置 属性 


参数 选项 意义 摘 述 


测试 任务 类 型 ，r 代表 读 ; w 代表 写 


指定 文件 格式 ，seq 代表 Sequence; txt 代表 Text 


指定 压缩 编码 


指定 压缩 类 型 ，BLOCK 压缩 还 是 RECORD 压缩 


指定 测试 工作 目录 ， 必 须知 道 这 个 参 关 


需要 注意 的 是 压缩 类 型 参数 仅仅 适用 于 测试 SequenceFiles 文 件 。 


7.loadgen 


这 个 命令 loadgen 是 一 个 通用 的 MapReduce 加 载 产生 器 ， 使 用 命令 如 下 : 


hadoop jar hadoop-test-1.0.4.jar \ 
[-m <maps>] [-r <reduces>] \ 
[-keepmap <percent>] 

[-keepred <percent>] \ 

[-indir <path>] [-outqir <path>] \ 
[-inFormat [Indirect] <InputFormat>] \ 
[-outFormat <OutputFormat>] \ 
[-outKey <WritableComparable>] \ 
[~-outValue <Writable>] 


参数 基本 意义 ， 如 表 6-16 所 示 。 


参数 选项 名 称 参数 选项 意义 描述 


-m <maps> Map 的 数 日 
-T <reduces> Redcue 的 数 日 
-keepmap <percent> Keepmap 比率 


表 6-16 ”loadgen 命 令 配 置 属性 


参数 选项 名 称 


-InFormat[lIndirect] <InputFormat> 


-outForimat <OutputFormat> 


-keepred <percent> Keepred 比率 -outKey <WritableComparable> 


-indir <path> HDFS 上 的 输入 路 径 


L 


8.mapredtest 


mapredtest 命 令 用 于 对 MapReduce 作 业 进 行 测试 和 检测 ， 使 用 命令 如 下 : 


x 


-outValue <Writable> 


HDFS 上 的 输出 路 径 
输入 格式 类 

输出 格式 类 

输出 key 键 类 


输出 value 值 类 


hadoop jar hadoop-test-1.0.4.jar mapredtest <range> <counts> 


上 述 命令 中 有 两 个 参数 ， 在 执行 测试 时 要 求 第 一 个 参数 的 值 小 于 第 二 个 参数 的 值 ， 命 令 局 动 后 会 运行 数 轮 MapReduce 作 业 来 对 MapReduce 作 业 本 身 是 否 可 以 正常 运行 


9.mrbench 


这 个 命令 是 针对 大 量 小 作业 的 MapReduce 作 业 的 基准 测试 。mrbench 会 多 次 重复 执行 一 个 小 作业 ， 用 于 检查 在 机 群 上 小 作业 的 运行 是 否 可 重复 以 及 运行 是 否 高 


效 ， 使 用 命令 如 下 。 


hadoop jar hadoop-test-1.0.4.jar mrbench [commandqOptions ] 


行 测试 和 检测 。 


[commandOptions] 是 mrbench 命 令 的 参数 选项 ， 有 具体 内 容 ， 如 表 6-17 所 示 。 


参数 选项 名 称 
-baseDIT 

-jar 
-numRuns 
-maps 
-reduces 
-inputLines 
-inputType 


-verbose 


表 6-17 mtrbench 命 令 配 置 属性 


参数 选项 意义 摘 述 
测试 中 在 HDFS 上 的 输入 /输出 根 目录 ， 默 认 
包含 Mapper 和 Reducer 实现 的 jar 文件 本 地 路 径 ， 
测试 中 运行 小 作业 的 次 数 ， 默 认为 1 
每 次 运行 的 Map 数目 ， 默 认为 2 
每 次 运行 的 Reduce 数目 ， 默 认为 1 
产生 输入 数据 的 行 数 
产生 输入 数据 的 类 型 : 


时 不 评 2 信息 已 ， 


ascending ( 默认 )、descending、random 


例如 ， 设 置 运 行 小 作业 次 数 为 950 次 ，Map 数 目 为 90， 执 行 命令 如 下 : 


/benchmarks/MRBench 
默认 为 当前 jar 文件 


hadoop jar hadoop-test-1.0.4.jar -numRuns 50 -maps 50 


执行 完成 后 会 显示 评价 运行 时 间 的 测试 结果 


10.nnbench 
nnbench 是 NameNode 的 基准 测试 命令 ， 用 于 测试 NameNode 的 负载 。 它 会 生成 很 多 与 HDFS 相 关 的 请 求 ， 对 NameNode 施 加 较 大 的 压力 。 这 个 测试 能 在 HDFS 上 模拟 创建 、 读 取 、 重 命名 和 删除 文 
件 等 操作 ， 使 用 命令 如 下 : 
hadoop jar hadoop-test-1.0.4.jar nnbench <options> 
<options> 是 命令 nnbench 参 数 选项 ， 具 体内 容 ， 如 表 6-18 所 示 。 
表 6-18 nnbench 命 令 配置 属性 
参数 选项 名 称 参数 选项 意义 摘 述 
-operation 强制 选项 ， 可 用 的 测试 操作 包括 : create_write open read rename delete 
-maps Map 数量 ， 默 认为 1， 非 强制 参数 选项 
-reduces Reduce 的 数量 ， 默 认为 1， 非 强制 参数 选项 
-startTime 起 始 时 间 ， 以 秒 为 单位 ， 默 认为 launch time + 2 分 钟 ， 非 强制 参数 选项 
-blockSize 块 大 小 ， 以 字 市 为 单位 ， 默 认为 1， 非 强 制 参数 选项 
-bytesToWrite 写字 节 ， 默 认为 0， 非 强制 参数 选项 
-bytesPerChecksum 文件 每 个 校 验 字 节 ， 默 认为 1， 非 强制 参数 选项 
-numberOfFiles 创建 的 文件 数量 ， 默 认为 1， 非 强制 参数 选项 
-replicationFactorPerFile 每 个 文件 的 复制 因子 ， 默 认为 1， 非 强制 参数 选项 
-baseDIir 测试 中 HDFS 上 的 输入 /输出 根 目 录 ， 默 认为 /becnhmarks/NNBench 
true 或 false， 如 果 为 trne， 会 谈 取 文件 ， 并 报告 平均 谈 取 文件 的 时 间 ， 这 对 于 
-readFileAfterOpen a 了 
open_read 操作 非常 有 效 ， 软 全 [为 false 
-help 输出 帮助 信息 


需要 注意 的 是 ， 在 利用 nnbench 测 试 NameNode 时 需要 先 执 行 create_write 操 作 测试 ， 然 后 才 可 以 执行 其 他 类 型 的 操作 测试 。 


11.testarrayfile 


用 于 对 有 键 值 对 的 文本 进行 测试 ， 测 试 命令 为 : 


hadoop jar hadoop-test-1.0.4.jar testarrayfile \ 
[-count N] [-nocreate] [-nocheck] file 


在 命令 中 ，-count 参 数 用 于 指定 测试 写 入 的 行 数 ; -nocreate 用 于 指示 不 进行 数据 的 生成 ; -nocheck 指 示 不 进行 数据 的 sort 校 验 ; file 参 数 为 测试 文本 的 文件 名 。 


12.testbigmapoutput 


用 来 测试 处 理 不 可 分 割 的 大 文件 来 产生 一 个 标准 的 MapReduce 作 业 ， 使 用 命令 如 下 : 


hadoop jar hadoop-test-1.0.4.jar testbigmapoutput \ 
-input <input-dir> \ 

-output <output-dir> \ 

[-create <filesize in MB>] 


其 命令 参数 意义 ， 如 表 6-19 所 示 。 


表 6-19 ”testbigmapoutput 命 令 参 数 意 义 


参数 选项 名 称 参数 选项 意义 描述 


-input 输入 数据 的 HDFS 路 径 
-output 输出 HDFS 路 径 
-create 创建 文件 的 大 小 ， 默 认 单位 为 MB 


13.testfilesystem 


这 个 命令 用 于 对 文件 系统 FileSystem 的 读 写 进行 测试 。FileSystem 是 Hadoop 文 件 系统 中 一 个 非常 重要 的 基础 组 件 ， 因 此 需要 对 其 读 写 功 能 进行 测试 ， 测 试 命令 如 下 : 


hadoop jar hadoop-test-1.0.4.jar testfilesystem 


14.testipc 


IPC 是 Hadoop 中 的 进程 通信 模块 ， 采 用 客户 /服务 器 模型 。IPC 是 整个 Hadoop 分 布 式 系统 中 信息 交互 的 基础 ， 是 至 关 重 要 的 。testipc 的 功能 就 是 对 Hadoop 的 核心 进程 间 的 交互 模块 IPC 进 行 测试 ， 执 


行 命令 如 下 : 


hadoop jar hadoop-test-1.0.4.jar testipc 


15.testmapredsort 


这 个 命令 是 用 于 测试 校 验 MapReduce 框 架 排 序 功能 的 测试 命令 。 排 序 对 于 Hadoop 来 讲 是 一 个 非常 关键 的 功能 ， 不 仅 发 生 在 Map 处 理 之 后 ， 在 shuffle 阶 段 也 会 进行 排序 。 因 此 排序 的 功能 和 性 能 会 影 
响 整 个 作业 的 执行 效率 ， 可 以 使 用 testmapredsort 命 令 进 行 测试 ， 执 行 命令 如 下 : 


hadoop jar hadoop-test-1.0.4.jar testmapredsort \ 
[-m <maps>] \ 

[-r <reduces>] \ 

[-deep] \ 

-SoOrtInput <sort-input-dir> \ 

-SortOutput <sort-output-dir> 


其 命令 参数 的 意义 ， 如 表 6-20 所 示 。 


表 6-20 testmaptedsott 命 令 参 数 意义 


参数 选项 名 称 参数 选项 意义 摘 述 参数 选项 名 称 参数 选项 意义 摘 述 
-m Map 的 数 晶 要 测试 排序 的 输入 数据 目录 
过 Reduce 的 数目 输出 目录 


16.testrpc 


这 个 命令 用 于 测试 Hadoop 中 的 RPC 功 能 。RPC(Remote Procedure Call Protocol) 是 远程 调用 协议 ， 其 对 底层 网 络 协议 是 透明 的 ， 跨 越 了 传输 层 和 应 用 层 。 在 Hadoop 系 统 中 的 核心 作业 就 是 让 分 布 式 
网 络 编程 更 加 容易 ， 因 此 可 以 说 RCP 是 Hadoop 中 的 最 重要 的 底层 核心 协议 之 一 ， 它 的 功能 就 显得 非常 重要 ， 执 行 测试 命令 如 下 : 


hadoop jar hadoop-test-1.0.4.jar testrpc 


17.testsequencefile 


这 个 命令 用 于 测试 包含 二 进 制 键 值 对 的 sequencefile 格 式 的 文件 。sequencefile 格 式 文件 是 Hadoop 中 最 通用 的 文件 存储 格式 。testsequencefile 测 试 命令 执行 后 会 测试 sequencefile 的 写 入 功能 、 访 问 
读 取 功 能 ， 同 时 用 户 需要 指定 相关 参数 ， 包 括 行 数 、 是 否 压缩 及 压缩 类 型 、 文 件 大 小 等 ， 执 行 命令 如 下 : 


hadoop jar hadoop-test-1.0.4.jar testsequencefile [-count N] \ 
[-seed #] [-check] \ 
[-compressType <NONE |RECORD|BLOCK>] \ 

-codec <compressionCodec> \\ 

[[-rwonly] | {[-megabytes M] [-factor F] [-nocreate] [-fast] [-merge]}] \ 
file 


在 该 命令 中 各 参数 的 意义 ， 如 表 6-21 所 示 。 


表 6-21 testsequencefile 命 令 参 数 意 义 


参数 选项 名 称 参数 选项 意义 描述 


-count 测试 瑟 人 功能 时 文件 的 行 数 

-seed 写 人 功能 测试 时 key-value 生成 的 随机 种 子 
-check 是 否 核 对 排 夺 测试， 默认 为 false 
-compressType 压缩 类 型 ， 取 值 : NONEIRECORDIBLOCK 
-codec 压缩 编 翁 ， 默 认为 org.apache.hadoop.io.compress.DefaultCodec 
-rwonly 是 否 仅 庶 写 测 试 ， 默 认为 false 

-megabytes 测试 排 夺 功能 的 内 存 大 小 ， 上 默认 单位 MB 
-factor 测试 排序 时 的 排序 因子 

-nocreate 是 否 不 测试 写 人 功能 ， 软 认为 false 

-fast 是 否 快 排 ， 默 认为 false 

-merge 是 否 进 行文 件 的 merge 功能 ， 默 认为 false 


file 指定 测试 的 文件 名 


18.testsequencefileinputformat 


这 个 命令 用 于 对 序列 文件 输入 格式 进行 功能 测试 ， 测 试 命令 如 下 : 


hadoop jar hadoop-test-1.0.4.jar testsequencefileinputformat 


这 个 命令 需要 HDFS 上 的 用 户 目录 下 存在 mapred 目 录 ， 上 默认 会 在 这 个 目录 下 生成 测试 文件 test.seq。 例 如 ， 用 户 名 为 nuoline， 则 在 HDFS 上 存在 /user/nuoline/mapred 目 录 。 


19.testsetfile 


这 个 命令 用 于 对 包含 二 进 制 键 值 对 文本 文件 进行 测试 ， 测 试 命令 如 下 : 


hadoop jar hadoop-test-1.0.4.jar testsetfile \ 
[-count N] [-nocreate] [-nocheck] [-compress type] file 


命令 中 选项 参数 的 意义 ， 如 表 6-22 所 示 。 


对 


表 6-22 testsetfile 命 令 元 


参数 选项 名 称 参数 选项 意义 摘 述 


人 
党 
ou 
< 


-count 测试 写 人 功能 时 文件 的 行 数 

-nocreate 是 否 不 测试 写 人 人 功能， 默认 为 false 
-nocheck 是 否 核对 排序 测试 ， 软 认为 false 
-compresstype 厌 缩 类 型 ， 取 值 : NONEIRECORDIBLOCK 


file 指定 测试 的 文件 名 


20.testtextinputformat 


这 个 命令 用 于 对 文本 文件 的 输入 格式 进行 测试 ，Hadoop 默 认 的 输入 文件 格式 就 是 TextlnputFormat 类 ， 测 试 命令 如 下 : 


hadoop jar hadoop-test-1.0.4.jar testtextinputformat 


21.threadedmapbench 


对 比 输出 一 个 排序 块 的 Map 作 业 和 输出 多 个 排序 块 的 Map 作 业 的 性 能 ， 测 试 命令 如 下 : 


hadoop jar hadoop-test-1.0.4.jar threadedmapbench \\ 
[-dataSizePerMap <data size (mb) per map, default is 128 mb>] \ 
[-numSpillsPerMap <number of spills per map, default is 2>] \ 
[-numMapsPerHost <number of maps Per host, default is 1>] 


该 命令 参数 选项 的 意义 ， 如 表 6-23 所 示 。 


表 6-23 threadedmapbench 命 令 参 数 意义 


参数 选项 名 称 参数 选项 意义 描述 
-dataSizePerMap 每 个 Map 的 数据 量 大 小 ， 单 位 MB ， 默 认为 128MB 
-numSpillsPerMap 繁 个 Map 的 spill 线程 数 ， 默 认为 2 个 


-numMapsPerHost 每 个 主机 节点 的 Map 数量 ， 默 认为 1 


6.5 ”应 用 命令 


Hadoop 本 身 内 置 了 很 多 常用 的 MapReduce 实 现 的 应 用 工具 ， 类 似 于 一 些 简 单 的 并 行 工 具 ， 并 被 打包 为 hadoop-examples-x.y.z.jar(x.y.z 为 hadoop 版 本 号 )， 同 样 通 过 Hadoop 命 令 就 可 以 使 用 这 些 并 
行 的 应 用 程序 ， 本 节 对 这 些 应 用 命令 进行 介绍 


1.aggregatewordcount 


个 公公 刁 


这 个 命令 是 词 频 统计 命令 ， 与 wordcount 不 同 之 处 在 en 这 些 aggregate 函 数 用 来 做 一 些 通用 的 计算 和 聚合 。 在 
aggregatewordcount 实 现 中 具体 调用 了 aggregate 函 数 库 的 LongValueSum 聚 合 函 数 ， 其 功能 就 是 对 Long 类 型 的 value 求 和 ， 最 终 可 以 统计 出 词语 出 现 的 频率 ， 执 行 命令 如 下 : 


hadoop jar hadoop-examples-1.0.4.jar aggregatewordcount \\ 
-libjars hadoop-examples-1.0.4.jar \ 

inputDirs outDir \ 

[numOfReducer [textinputformat|seq [specfile [jobName]]]] 


此 命令 使 用 了 Hadoop 命 令 中 的 -libjars 选 项 来 指定 aggregatewordcount 命 令 所 依赖 的 aggregate 了 数 库 ， 其 参数 选项 的 意义 ， 如 表 6-24 所 示 。 


表 6-24 aggregatewotdcounht 参 数 选 项 意义 


参数 选项 名 称 参数 选项 意义 摘 述 
inputDirs 统计 value 的 计 妆 
outDir 对 类 型 为 Long 的 value 求 和 
numOfReducer Reduce 的 数目 
textinputformatlseq 指定 输入 文件 格式 : 文本 文件 或 SequenceFile ， 默 认为 seq 格式 
specfile 用 于 指定 配置 文件 
jobName 设置 作业 名 称 


2.aggregatewordhist 


这 个 命令 用 于 WORD_HISTOGRAM 统 计 ， 最 终 统计 结果 包括 : 唯一 value 的 数量 ，word 频 率 最 低 值 、 中 间 值 ，word 频 率 最 大 值 、 频 率 平均 值 、 标 准 偏 差 。 使 用 命令 如 下 : 


hadoop jar hadoop-examples-1.0.4.jar aggregatewordhist \ 
-libjars hadoop-examples-1.0.4.jar \ 

inputDirs outDir \ 

[numOofReducer [textinputformat|seq [specfile [jobName]]]] 


命令 中 的 参数 意义 和 aggregatewordcount 的 类 似 。 


3.dbcount 


这 个 命令 是 以 关系 数据 库 Hadoop 的 输入 统计 PageView 程 序 为 实例 ， 最 终 调 用 执行 org.apache.hadoop.examples 包 下 的 DBCountPageView 类 。 在 程序 中 Hadoop 使 用 DBlnputFormat 输 入 格式 从 数 


据 库 中 读 取 数据 ， 并 且 使 用 DBOutputFormat 将 结果 写 回 数据 库 ， 首 先 这 个 程序 会 创建 一 个 必要 的 数据 库 表 ， 接 着 向 这 个 表 中 写 入 数据 并 运行 一 个 MapReduce 作 业 ， 输 入 数据 是 一 个 访问 日 志 ， 包 括 的 字 
段 为 : <url，referrer，time> ， 作 业 运 行 输出 的 结果 是 每 个 URL 页 面 的 浏览 量 : <url，pageview>。 使 用 命令 如 下 : 


hadoop jar hadoop-examples-1.0.4.jar dbcount 


不 带 参 数 调用 程序 启动 一 个 本 地 的 HSQLDB 服 务 器 (jdbc:hsqldb:hsql://localhost/URLAccess)， 并 使 用 此 数据 库 来 存储 /检索 数据 。 用 户 也 可 以 指定 参数 : 第 一 个 参数 为 driverClassName (默认 
为 "org.hsqldb.jdbcDriver") ; 第 二 个 参数 为 url (默认 为 "jdbc:hsqldb:hsql://localhost/URLAccess") 。 


4.grep 


分 布 式 正则 匹配 grep 命 令 ， 使 用 命令 如 下 : 


hadoop jar hadoop-examples-1.0.4.jar grep <inDir> <outDir> \ 
<regex> [<group>] 


此 命令 中 的 参数 和 Linux 命 令 sb <inDir> 为 HDFS 的 输入 路 径 ; <outDir> 为 HDFS 的 输出 路 径 ; <regex> 为 正则 表达 式 ; <group> 是 可 选 参 数 ， 用 于 指 


mapred.mapperregex.group” 的 值 。 这 个 命令 会 执行 两 轮 MapReduce 作 业 ， 在 第 一 轮 中 指定 Map 为 RegexMapper.class 来 做 正则 匹配 ，Reduce 为 LongSumReducer.class 用 于 计算 匹配 成 功 的 次 
数 ; 在 第 二 轮 中 指定 Map 为 InverseMapper.class， 没 有 指定 Reduce， 通 过 InverseMapper 实 现 了 基于 value 的 二 次 排序 。 


5Join 


实现 了 一 个 join 的 排序 框架 。 在 这 个 命令 的 实现 中 将 Map 指 定 为 系统 默认 的 IdentityMapper.class， 将 Reduce 指 定 为 系统 默认 的 IdentityReducer.class， 也 就 是 什么 都 不 做 ， 通 过 


CompositelnputFormat 实 现 多 个 数据 源 进行 join 操作 。 使 用 命令 如 下 : 


hadoop jar hadoop-examples-1.0.4.jar join \ 
[-m <maps>] [-r <reduces>] \ 

[-inFormat <input format class>] \ 
[-outFormat <output format class>] \ 
[-outKey <output key class>] \ 

[-outValue <output value class>] \ 

[-joinOp <inner|outer|override>] \ 

[input]* <input> <output> 


该 命令 参数 的 意义 ， 如 表 6-25 所 示 。 
表 6-25 join 参数 选项 意义 


参数 选项 名 称 参数 选项 意义 描述 参数 选项 名 称 参数 选项 意义 描述 


-Dl -OUtValue 输出 value 值 的 Java 类 


-I Recdue 的 数 日 join 操作 类 型 innerlouterloverride 


,pep 


HDFS 上 的 输入 路 径 ， 支 持 * 符 


-入 


-inFormat 输入 数据 格式 类 [input]* <Input> i 
号 多 路 径 输 入 
-outFormat 输出 数据 格式 类 <output> HDFS 上 的 输出 路 径 


-outKey 梢 出 key 键 的 Java 类 | 


需要 注意 的 是 ， 这 个 join 并 没有 完全 实现 ， 仪 仪 是 作为 一 个 join 实现 的 框架 ， 相 当 于 数据 集 的 划分 ， 用 户 还 需要 完全 实现 。 
6.multifilewc 


这 个 命令 是 单词 频率 统计 (wordcount) 的 多 路 输入 版 本 ， 通 过 继承 MultiFilelnputFormat 实 现 了 一 个 MylnputFormat 类 用 来 处 理 多 路 输入 ， 使 用 命令 如 下 : 


hadoop jar hadoop-examples-1.0.4.jar multifilewc \ 
<input dir> <output> 


7.pentomino 


这 是 个 使 用 MapReduce 解 决 五 格 拼 版 问题 的 命令 ， 使 用 命令 如 下 。 


hadoop jar hadoop-examples-1.0.4.jar pentomino 


8.pi 


使 用 蒙 地 卡 罗 法 计算 pi 的 MapReduce 命 令 ， 使 用 命令 如 下 : 


hadoop jar hadoop-examples-1.0.4.jar pi <nMaps> <nSamples> 


参数 nMaps 是 Map 的 数量 ; nsamples 是 每 个 Map 中 的 数据 抽样 数量 。 在 计算 中 ， 总 共 的 抽样 数量 是 Map 作 业 的 数量 乘 以 每 个 Map 作 业 中 的 抽样 数量 。Map 阶 段 会 在 1x 1 的 正方 形 面积 内 产生 随机 的 


点 ， 对 于 其 中 的 每 个 抽样 点 ， 如 果 满 足 X2+Y2<1， 那 么 这 个 点 就 在 圆 的 里 面 ， 否 则 ， 这 个 点 就 在 圆 的 外 面 。Map 作 业 输 出 键 值 为 1 或 0，1 代 表 在 直径 为 1 的 圆 内 ; 0 代表 在 直径 为 1 的 圆 外 。Reduce 任 务 计 算 


内 点 的 数量 和 圆 外 点 的 数量 ， 这 两 个 数量 的 比例 就 是 极限 值 pi。 


9.randomtextwriter 


这 个 命令 使 用 MapReduce 方 法 为 每 个 节点 生成 10GB 的 随机 文本 数据 ， 执 行 命令 如 下 : 


hadoop jar hadoop-examples-1.0.4.jar randomtextwriter \ 
[-outFormat <output format class>] \ 
<output> 


在 这 个 命令 中 ， 参 数 -outFormat 用 于 指定 输出 格式 类 ; 参数 output 用 于 指定 生成 的 输出 数据 在 HDFS 上 的 路 径 。randomtextwriter 这 个 命令 实现 每 个 节点 运行 10 个 Map 用 于 来 产生 随机 数据 ， 设 置 输 
入 格式 为 RandomWriter.RandomlnputFormat.class 类 ; 设置 Reduce 的 数目 为 0， 也 就 是 不 需要 Reduce。 


这 个 命令 主要 用 于 terasort 排 序 测试 的 数据 生成 ， 能 保证 生成 的 数据 中 每 个 key 的 wprd 数 目 为 5~10words， 每 个 value 的 word 数 目 为 20~100， 使 用 的 相关 配置 参数 变量 ， 如 表 6-26 所 示 。 


表 6-26 frandomtextwtitet 配 置 参数 


参数 名 称 
test.randomtextwrite.min words key 
test.randomtextwrite.max words key 
test.randomtextwrite.min words value 
test.randomtextwrite.max words value 
test.randomtextwrite.total bytes 
test.randomtextwrite.maps_ per host 


test.randomtextwrite.bytes per map 


用 户 可 以 自 定义 上 述 配置 的 值 ， 从 而 控制 生成 的 随机 文本 数量 。 
10.randomwriter 


使 用 MapReduce 来 生成 随机 数 ， 将 生成 没有 排序 的 二 进 制 序列 文件 ， 每 个 节 


点 会 运行 10 个 Map， 每 个 Map 输 入 单个 文件 名 ， 


参数 意义 摘 述 
随机 文本 中 最 小 的 key 的 word 数目 ， 配 置 为 5 
随机 文本 中 最 大 的 key 的 word 数目 ， 配 置 为 10 
随机 文本 中 最 小 的 value 的 word 数目 ， 配 置 为 20 
随机 文本 中 最 大 的 value 的 word 数目 ， 配 置 为 100 
总 共生 成 的 数据 量 ， 配 置 为 1 099 511 627 776 bytes 
每 Pe 多 少 Ma 默认 为 10 
每 个 Map 写 人 多 少数 据 量 ， 默 认 1 x 1024 x 1024 x 1024 


hadoop jar hadoop-examples-1.0.4.jar randomwriter <out-dir> 


在 该 命令 中 只 有 一 个 参数 <out-dir>， 用 于 指定 生成 随机 数 的 HDFS 输 出 目录 。 在 该 命令 


中 使 用 的 配置 参数 变量 ， 如 表 6-27 所 示 。 


表 6-27 tandomwtitet 配 置 参数 


参数 名 称 
test.randomwrite.min key 
test.randomwrite.max key 
test.randomwrite.min value 
test.randomwrite.max value 
test.randomwr1ite.total bytes 
test.randomwr1iter.maps per host 


test.randomtextwrite.bytes per map 


和 randomtextwriter 一 样 ， 用 户 可 以 根据 实际 需要 自 定义 表 6-27 中 的 参数 变量 


11.secondarysort 


参数 意义 描述 
随机 数 最 小 的 key 的 大 小 ， 配 置 为 10 bytes 
随机 数 最 大 的 key 的 大 小 ， 配 置 为 10 bytes 
随机 数 最 小 的 value 的 大 小 ， 配 置 为 90bytes 
随机 数 最 大 的 value 的 大 小 ， 配 置 为 90 bytes 
总 共生 成 的 数据 量 ， 配 置 为 1 099 511 627 776 bytes 
个 节点 运行 多 少 Map ， 默 认为 10 


每 个 Map 写 人 多 少数 据 量 ， 默 认 1 x 1024 x 1024 x 1024 


用 于 Hadoop 二 次 排序 程序 ， 输 入 数据 要 求 每 一 行 有 两 个 整数 ， 会 按照 第 一 个 、 第 二 个 进行 排序 ， 并 且 根 据 第 一 个 进行 group 分 组 ， 使 用 命令 如 下 : 


hadoop jar hadoop-examples-1.0.4.jar secondarysort in-dir out-dir 


在 该 命令 中 参数 in-dir 是 DFS 上 的 输入 路 径 ; out-dir 是 DFS 上 的 输出 路 径 。 


12.sleep 


在 每 个 Map 和 Reduce 都 休眠 (sleep) 一 定时 间 的 MapReduce 应 用 程序 中 ， 使 用 命令 如 下 : 


hadoop jar hadoop-examples-1.0.4.jar Sleep \ 


-r numReducer] \ 

t mapSleepTime (msec)] \\ 

-rt reduceSleepTime (msec)] \ 
-recordt recordSleepTime (msec) ] 


ey 


命令 中 的 参数 意义 ， 如 表 6-28 所 示 。 


参数 名 称 


表 6-28 ”sleep 配置 参数 


参数 意义 摘 述 参数 名 称 
-mm numMapper，Map 的 数目 -It 
-I numReducer，Reduce 的 数 日 每 个 


参数 意义 描述 
Reduce 中 sleep 的 时 间 ， 单 位 为 秒 


Record 的 sleep 时 间 


-mt Map 中 sleep 的 时 间 ， 


13.sort 


对 随机 生成 的 数据 使 用 MapReduce 进 行 排序 ， 使 用 命令 如 下 : 


单位 为 秒 


hadoop jar hadoop-examples-1.0.4.jar sort \ 


然后 随机 写 BytesWritable 的 键 和 值 到 DFs 顺 序 文件 ， 使 用 的 命令 如 下 : 


-m <maps>] [-r <reduces>] \ 

-inFormat <input format class>] \\ 

-outFormat <output format class>] \ 

-outKey <output key class>] \ 

-outValue <output value class>] \ 

-totalOrder <pcnt> <num samples> <max splits>] \ 
input> <output> 


[ 
[ 
[ 
[ 
[ 
[ 
< 


该 命令 中 参数 的 意义 ， 如 表 6-29 所 示 。 


表 6-29 sort 配置 参数 


参数 名 称 参数 意义 描述 参数 名 称 


-I 指定 Map 的 数目 


-I 指定 Reduce 的 数 日 


-inFormat 指定 输入 数据 的 格式 类 -totalOrder 


-outFormat 指定 输出 数据 的 格式 类 


<Input> <output> 


-outKey 输出 key 键 类 
天 A 1 9 间 站 
-OUtValue 本 出 value 但 闫 


参数 意义 描述 


需要 指定 <pcnt> <num samples> 


<max splits> 


这 个 命令 指定 Map 为 IdentityMapper.class， 指 定 Reduce 为 IdentityReducer.class， 也 就 是 Map 和 Reduce 什 么 都 不 做 ， 利 用 Hadoop 本 身 的 排序 功能 来 实现 。 


RD x 


14.sudoku 


指定 输入 和 输出 的 路 径 


这 个 命令 可 实现 九宫 格 数 独 Sudoku 的 并 行 解决 方案 。Sudoku 是 一 种 数学 游戏 ， 最 典型 的 就 是 把 一 个 9 行 9 列 的 棋盘 分 为 9 个 3x 3 的 方块 ， 在 棋盘 上 填 入 1~9 这 9 个 数字 ， 使 得 每 行 (row) 每 列 (column) 每 


块 (block) 的 9 个 格子 内 数字 不 重复 。 在 Hadoop 中 可 使 用 Dancing Links 来 对 Sudoku 进 行 求解 ， 使 用 命令 如 下 : 


hadoop jar hadoop-examples-1.0.4.jar sudoku args 


参数 args 是 拼图 文件 puzzle filenames 列 表 ， 需 要 注意 的 是 Hadoop 自 带 的 这 个 例子 并 没有 使 用 MapRedcue 实 现 ， 这 是 因为 Sudoku 本 身 的 输入 数据 规模 很 小 ， 


15.teragen 


运行 时 间 也 在 秒 级 别 。 


teragen 命 令 使 用 MapReduce 来 产生 数据 ， 它 将 数据 按 行 排列 并 根据 执行 任务 的 数目 为 每 个 Map 分 配 任务 ， 每 个 Map 任 务 产生 所 分 配 行 数 范围 内 的 数据 ， 所 生成 的 数据 主要 提供 给 排序 测试 工具 


TeraSort 使 用 。 使 用 命令 如 下 : 


hadoop jar hadoop-examples-1.0.4.jar teragen rows output 


人 人 一 2 


在 此 命令 中 ， 参 数 rows 用 于 指定 要 生成 多 少 行 的 数据 ; output 为 输出 路 径 。 在 生成 的 数据 中 每 一 行 是 100 个 字 节 


组 成 的 记录 ， 


全 /一 


母体 


记录 由 3 段 组 成 : 前 10 


个 字 节 是 


随机 的 10 个 二 进 制 字符 作为 key; 中 间 


10 个 字 节 作为 行 id; 后 面 80 个 字 节 ， 是 8 段 ， 每 段 是 相同 的 10 字 节 随 机 大 写字 母 。 例 如 ， 要 生成 10000000000 行 的 数据 ， 也 就 是 1T 的 数据 ， 输 出 目录 为 out-dir， 使 用 命令 如 下 : 


hadoop jar hadoop-examples-1.0.4.jar teragen 10000000000 out-dir 


16.terasort 


terasort 是 标准 的 Map/Reduce 排 序 程序 ， 往 往 用 作 集群 基准 测试 的 排序 程序 ， 将 terasort 命 令 生成 的 数据 集 作 为 输入 数据 ， 使 用 命令 如 下 : 


hadoop jar hadoop-examples-1.0.4.jar terasort in-dir out-dir 


在 此 命令 中 ，in-dir 为 需要 排序 的 输入 数据 路 径 ; out-dir 是 排序 后 的 结果 输出 路 径 。 在 terasort 的 实现 中 并 没有 设置 Mapper 和 Reducer， 也 就 是 说 它 使 用 Hadoop 默 认 的 ldentityMapper 和 
IdentityReducer 分 别 作 为 Map 和 Reduce。ldentityMapper 和 IdentityReducer 对 输入 不 做 任何 处 理 ， 输 入 k 后 v 直 接 输出 。 因 此 terasort 直 接 利 用 了 框架 本 身 的 排序 功能 。terasort 命 令 中 自 定义 了 


partitioner-TotalOrderPartitioner， 使 用 N-1 个 已 排 好 序 的 抽样 键 值 来 为 Reduce 任 务 分 配 排序 数据 的 行 数 。 


17.teravalidate 


teravalidate 命 令 是 一 个 使 用 MapReduce 实 现 的 排序 检验 程序 ， 用 于 对 terasort 的 排序 结果 做 校 验 ， 以 检验 排序 输出 结果 是 否 是 有 序 的 ， 使 用 命令 如 下 : 


hadoop jar hadoop-examples-1.0.4.jar teravalidate \ 
out-dir report-dir 


在 此 命令 中 ，out-dir 就 是 terasort 排 序 后 所 输出 的 结果 目录 ，report-dir 是 teravalidate 校 验 后 生成 的 校 验 报告 目录 。teravalidate 保 证 输出 数据 是 全 部 排 好 序 的 ， 它 为 输出 目录 的 每 个 文件 分 配 一 个 
Map 任 务 (通过 设置 mapred.min.split.size 的 值 为 Long.MAX_VALUE 来 保证 每 一 个 输入 文件 都 不 会 被 split) ，Map 任 务 检查 每 个 值 是 否 大 于 等 于 前 一 个 值 ， 同 时 输出 最 大 值 和 最 小 值 给 Reduce 任 


务 ，Reduce 任 务 检查 第 | 个 文件 的 最 小 值 是 否 大 于 第 i-1 文 件 的 最 大 值 ， 如 果 不 是 ， 则 产生 错误 报告 。 


18.wordcount 


wordcount 命 令 是 Hadoop 中 最 经 典 的 词 频 统计 命令 ， 用 于 统计 文本 中 每 个 单词 出 现 的 数 次 ， 使 用 命令 如 下 : 


hadoop jar hadoop-examples-1.0.4.jar wordcount <in> <out> 


参数 <in > 为 输入 文本 数据 的 路 径 ; <out> 为 输出 词 频 统计 结果 的 目录 。 在 实现 中 Mapper 阶 段 生 成 <word，1> 键 值 对 ， 在 Redcuer 中 对 相同 的 word 进 行 sum 归 约 求 和 过 程 从 而 计算 出 每 个 单词 出 现 的 


次 数 。 


6.6 Hadoop 的 streaming 命 令 


Hadoop 的 streaming 命 令 是 一 个 面向 非 Java API 的 MapReduce 通 用 编程 接口 ， 通 过 使 用 输入 和 输出 让 用 户 的 程序 与 Hadoop 框 架 进行 通信 及 传输 数据 。 用 户 可 以 使 用 任何 可 以 操作 标准 输入 和 输出 的 
编程 语言 很 方便 地 编写 MapReduce 并 行程 序 。 本 节 将 介绍 streaming 命 令 语 法 及 参数 详解 ， 关 于 streaming 的 原理 将 在 第 8 章 Hadoop Streaming 和 Pipes 原 理 与 实现 中 详细 描述 。 


6.6.1 streaming 命 令 


streaming 命 令 需 要 使 用 Streaming 的 jar 包 文件 ， 默 认 位 置 为 (以 Hadoop-1.0.4 版 本 为 例 ) $HADOOP_ HOME/contrib/streaming/hadoop-streaming-1.0.4.jar， 使 用 语法 如 下 : 


hadoop jar \ 
$HADOOP HOME/contrib/streaming/hadoop-streaming-1.0.4.jar \ 
[options] 


[options] 是 streaming 的 参数 选项 。streaming 支 持 的 参数 ， 如 表 6-30 所 示 。 


表 6-30 streaming 命 令 的 参数 选项 说 明 


参数 选项 名 称 参数 选项 意义 摘 述 
-input <path> 输入 数据 的 HDFS 路 径 
-output <path> 输出 数据 的 HDFS 路 径 
-mapper <cmdlJavaClassName> Mapper 可 执行 程序 或 Java 类 
-reducer <cmd|JavaClassName> Reducer 可 执行 程序 或 Java 类 
-file <file> 可 选项 ， 用 于 分 发 本 地 文件 

(组 ) 

参数 选项 名 称 参数 选项 意义 摘 述 
-cacheFile <file> 可 选项 ， 用 于 分 发 HDFS 上 的 文件 
-cacheArchive <file> 可 选项 ， 用 于 分 发 HDFS 上 的 压缩 文件 
-numReduceTasks <num> 可 选项 ，Reduce 任务 个 数 
-iobconf | -D NAME=VALUE 可 选项 ，Hadoop 作业 配置 参数 
-combiner <JavaClassName> 可 选项 ， 指 定 Combiner Java 类 
-partitioner <JavaClassName> 可 选项 ， 指 定 Partitioner Java 类 
-inputformat <JavaClassName> 可 选项 ， 指 定 InputFormat Java 类 
-outputformat <JavaClassName> 可 选项 ，OutputFormat Java 类 
-inputreader <spec> 可 选项 ，InputReader 配置 
-cmdenv <n>=<V> 可 选项 ， 传 给 Mapper 和 Reducer 的 环境 变量 
-mapdebug <path> 可 选项 ，Mapper 失败 时 运行 的 debug 程序 
-reducedebug <path> 可 选项 ，Reducer 失败 时 运行 的 debug 程序 
-verbose 可 选项 ， 许 细 和 输出 模式 


6.6.2 ”参数 使 用 分 析 

6.6.1 节 介绍 了 Streaming 的 使 用 语法 及 所 支持 的 参数 选项 ， 本 节 将 对 这 些 参数 选项 进行 详细 分 析 。 
1.-input<path> 

此 参数 用 于 指定 作业 输入 ，path 是 HDFS 上 的 文件 或 目录 ， 可 以 使 用 * 通 配 符 ，-input 选 项 可 以 使 用 多 次 从 而 指定 多 个 文件 或 目录 作为 输入 。 
2.-output< path> 

此 参数 用 于 指定 作业 输出 目录 ，path 必 须 是 在 HDFS 上 不 存在 的 ， 而 且 执 行 作业 的 用 户 必 须 有 创建 该 目录 的 权限 ，-output 只 能 使 用 一 次 。 
3.-mapper 和 -reducer 


-mapper 用 于 指定 Mapper 可 执行 程序 或 Java 类 ， 必 须 指定 上 且 唯 一 ; -reducer 用 于 指定 Reducer 可 执行 程序 或 Java 类 ， 必 须 指定 上 且 唯 一 。 假 如 我 们 指定 Linux 的 命令 cat 作 为 Mapper 和 Reducer， 则 
streaming 的 命令 格式 如 下 : 


hadoop jar \ 

$HADOOP HOME/contrib/streaming/hadoop-streaming-1.0.4.jar \ 
-input input path \ 

-output output path \ 

-mapper "cat" \ 

-reducer "cat" 


上 述 streaming 命 令 指定 了 Linux 命 令 中 的 cat 作 为 Mapper， 同 时 指定 cat 作 为 Reducer， 也 就 是 说 在 Mapper 和 Reducer 中 对 数据 并 不 做 任何 处 理 。 但 是 由 于 Hadoop 框 架 本 身 会 按照 key 对 数据 进行 排 
序 ， 因 此 输出 结果 也 是 排序 后 的 ， 并 不 是 什么 都 没有 做 ， 如 果 需 要 让 结果 全 局 有 序 ， 则 还 需要 指定 Reducer 的 数目 为 1， 因 此 从 本 质 上 说 上 述 代 码 就 是 实现 了 一 个 分 布 式 的 排序 工具 。 


4.-file 


-file 参 数 用 于 分 发 本 地 文件 ， 文 件 本 身 不 能 有 目录 结构 。Hadoop 会 将 本 地 文件 分 发 到 每 个 计算 节点 ， 实 际 上 是 将 客户 端 本 地 文件 打 成 jar 包 上 传 到 HDFS 后 分 发 到 计算 节点 ， 用 户 在 streaming 命 令 中 可 
以 直接 像 使 用 本 地 文件 一 样 访问 该 文件 ， 例 如 使 用 命令 -file/yourpathy/filename 选 项 ， 则 在 streaming 命 令 中 可 以 直接 通过 ./filename 来 对 文件 进行 操作 。 最 常见 的 就 是 对 可 执行 文件 的 分 发 。 例 如 ， 分 发 
Mapper 和 Reducer 可 执行 文件 。 需 要 注意 的 是 分 发 可 执行 程序 要 保证 保存 文件 具有 可 执行 权限 ， 假 设 Mapper 的 可 执行 程序 为 nymapper.sh 脚 本 ，Reducer 的 可 执行 程序 为 nyreducer.sh 脚 本 ， 则 使 用 - 
file 参 数 的 streaming 命 令 如 下 : 


hadoop jar \ 
$HADOOP HOME/contrib/streaming/hadoop-streaming-1.0.4.jar \ 
-input input path \ 
-output output path \ 
apper mymapper.sh \ 
-reducer myreducer.sh \ 
file /yourpath/mymapper.sh \ 
le /yourpath/myreducer.sh 


Fis 


1 
lis 


如 果 用 户 没有 使 用 -file 参 数 分 发 Mapper 和 Reducer 可 执行 文件 ， 会 出 现 作业 运行 时 找 不 到 可 执行 文件 而 最 终 导致 任务 失败 。-file 参 数 还 常常 用 于 分 发 本 地 单个 词典 文件 或 额外 要 使 用 的 数据 文件 ， 这 样 
在 streaming 命 令 中 可 以 像 访问 本 地 文件 一 样 来 使 用 它 。 


5.-cacheFile 


-CacheFile 参 数 选 项 用 于 分 发 存放 在 HDFS 上 的 文件 。Hadoop 在 计算 时 在 每 个 计算 节点 上 将 该 文件 当 作 本 地 文件 来 处 理 ， 具 体 使 用 语法 如 下 : 


-cacheFile hdfs:// namenodehost:port/path/filename#linkname 


在 上 述 命令 中 需要 指定 HDFS 的 NameNode 主 机 名 及 端口 号 ， 如 果 不 指定 ， 则 会 从 配置 文件 中 读 取 默 认 值 。linkname 是 filename 文 件 的 链接 ， 这 个 命令 会 在 计算 节点 缓存 该 文件 。 在 streaming 命 令 中 
也 可 以 直接 通过 ./linkname 来 访问 HDFS 上 的 filename 文 件 。 例 如 ， 在 HDFS 上 有 一 个 数据 字典 文件 bigdata.dict， 则 使 用 -cacheFile 参 数 从 HDFS 分 发 到 计算 节点 并 链接 到 当前 目录 ， 命 令 格式 如 下 : 


hadoop jar \ 

$HADOOP HOME/contrib/streaming/hadoop-streaming-1.0.4.jar \ 
-input input path \ 

-output output path \ 

-mapper mymapper.sh \ 

-reducer myreducer.sh \ 

-file /yourpath/mymapper.sh \ 

-file /yourpath/myreducer.sh 

-cacheFjile hdfs:// namenode:port/user/nuoline/bigdata.dict#dlink 


在 用 户 的 Mapper 和 Reducer 可 执行 程序 mymapper.sh 和 myreducer.sh 中 便 可 以 通过 ./dlink 直 接 访问 HDFS 上 的 字典 文件 hdfs://namenode:port/user/nuoline/bigdata.dict， 而 且 是 从 本 地 读 取 文 件 
的 。 


6.-cacheArchive 


-file 和 -cacheFile 都 是 用 于 分 发 文件 的 ， 而 用 户 要 分 发 一 个 目录 或 者 有 目录 的 文件 该 用 哪个 参数 进行 分 发 呢 ? 这 时 可 以 使 用 -cacheArchive 参 数 : 先 将 整个 目录 打包 压缩 ， 然 后 上 传 到 HDFS， 再 使 用 - 
cacheArchive 参 数 。 例 如 有 一 个 application 目 录 ， 其 下 有 mymapper.sh 和 myreducer.sh 可 执行 程序 文件 ， 以 及 data/dict.data 子 目录 和 文件 ， 在 可 执行 程序 mymapper.sh 和 myreducer.sh 中 需要 访 
问 ./data/dict.data 文 件 ， 首 先 要 将 本 地 目录 application 的 所 有 文件 和 子 目录 打包 压缩 ， 然 后 上 传 到 HDFS 上 ， 在 打包 压缩 时 需要 注意 一 定 要 进入 application 目 录 中 进行 打包 压缩 ， 命 令 格式 如 下 : 

cd application 


tar -zcvf app.tar.gz ./* 
hadoop fs -put app.tar.gz /user/nuoline 


上 传 压缩 包 后 的 HDFS 路 径 为 /user/nuoline/app.tar.gz， 然 后 在 运行 streaming 命 令 时 使 用 -cacheArchive 选 项 将 app.tar.gz 分 发 到 计算 节点 并 解压 到 app 目 录 ， 命 令 格式 如 下 : 


hadoop jar \ 

$HADOOP HOME/contrib/streaming/hadoop-streaming-1.0.4.jar \ 
-input input path \ 

-output output path \ 

-mapper app/mymapper.sh \ 

-reducer app/myreducer.sh \ 

-cacheArchive hdfs:// namenode:port/user/nuoline/app.tar.gz#app 


在 提交 命令 后 会 在 当前 工作 目录 创建 到 app 目 录 的 链接 ; -mapper 选 项 指定 app/mymapper.sh 为 mapper 程 序 ; -reducer 选 项 指定 app/myreducer.sh 为 Reducer 程 序 ， 这 两 个 可 执行 脚本 都 可 以 读 
取 ./data/dict.data 文 件 。 


-file 和 -cacheFile 的 不 同 之 处 在 于 -cacheArchive 将 HDFS 压 缩 文 件 分 发 到 计算 节点 并 和 解压。Hadoop 支 持 zip、jar、tar.gz 格 式 的 压缩 包 ， 由 于 Java 解 压 zip 压 缩 包 时 会 丢失 文件 权限 信息 且 遇 到 中 文 文件 
名 会 出 错 ， 所 见 建 议 采 用 tar.gz 压 缩 包 。 


7.-numReduceTasks 
这 个 参数 用 于 指定 Reducer 的 个 数 ， 如 果 设 置 -numReduceTasks 0 或 -reducer NONE， 则 没有 Reducer 程 序 ，Mapper 的 输出 直接 作为 整个 作业 的 输出 而 最 终 写 入 HDFS。 
8.-jobconf|-D NAME=VALUE 


用 于 指定 作业 的 Hadoop 配 置 参 数 。 NAME 是 参数 名 ，VALUE 是 参数 值 。 常 见 的 作业 配置 参数 ， 如 表 6-31 所 示 。 


表 6-31 -jobconf|-D 参 数 配 置 说 明 


参数 配置 选项 名 称 配置 意义 摘 述 
mapred.job.name 作业 名 ， 最 好 指定 便于 区 分 
作业 优先 级 ，VERY HIGH | HIGH | NORMAL |LOW 


mapred.job.priority VERY LOW 


mapred.job.map.capacity 最 多 同时 运行 的 Map 任务 数 
mapred.job.reduce.capacity 最 多 同时 运行 的 Reduce 任务 数 
hadoop.job.uei 作业 执行 权限 

mapred.map.tasks Map 任务 个 数 
mapred.reduce.tasks Reduce 任务 个 数 
mapred.job.groups 作业 可 运行 的 计算 节点 分 组 
mapred.task.timeout 任务 没有 啊 应 (输入 /输出 ) 的 最 长 时 间 值 
mapred.compress.map.output Map 的 输出 是 否 讨 缩 
mapred.map.output.compression.codec Map 的 输出 压缩 方式 
mapred.output.compress Reduce 的 输出 是 否 压 缩 
mapred.output.compression.codec Reduce 的 输出 压缩 方式 
stream.map.output.field.separator Map 输出 分 隔 符 


在 使 用 streaming 提 交 作 业 时 ， 建 议 使 用 参数 mapredjob.name 指 定 作 业 名 称 可 以 很 方便 地 和 别 的 作业 进行 区 分 ， 使 用 mapred,job.priority 指 定 作业 优先 级 ， 更 多 的 参数 可 以 参考 core-default.xml、 
mapred-default.xml 及 hdfs-default.xml 三 个 配置 文件 中 的 相关 参数 。 


9.-combiner 
此 参数 用 于 指定 combiner Java 类 ， 将 对 应 的 Java 类 文件 打包 成 jar 文 件 ， 然 后 使 用 -file 进 行 分 发 。 
10.-partitioner 


此 参数 用 于 指定 partitioner Java 类 。Streaming 提 供 了 一 些 实用 的 partitioner 实 现 ， 例 如 KeyBasedFiledPartitoner 类 ， 上 有 具体 为 org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner 类 ， 通 过 这 


个 类 可 以 实现 二 次 排序 的 问题 ， 具 体内 容 将 在 12.5.2 节 进行 介绍 。 
11.-inputformat 和 -outputformat 


这 两 个 参数 用 于 指定 inputformat 和 outputformat Java 类 ， 以 读 取 输 入 数据 和 写 入 输出 数据 ， 需 要 分 别 实现 InputFormat 和 OutputFormat 接 口 。 如 果 不 指 定 inputformat 和 outputformat Java 类 ， 
则 Hadoop 会 默认 使 用 TextlnputFormat 和 TextOutputFormat 类 作为 输入 类 和 输出 类 。 


12.-cmdenv NAME=VALUE 
用 于 向 Mapper 和 Reducer 程 序 传 递 额外 的 环境 变量 。NAME 是 变量 名 ; VALUE 是 变量 值 。 


13.-mapdebug 和 -reducedebug 


N 


参数 分 别 指定 Mapper 和 Reducer 程 序 失败 时 运行 的 debug 程 序 ， 主 要 用 于 进行 调试 程序 ， 可 以 辅助 定位 程序 的 错误 之 处 ， 对 于 进行 Streaming 写 的 MapReduce 程 序 的 单元 测试 还 是 很 重要 的 。 


xf 
下 
> 


14.-verbose 


此 参数 用 于 指定 输出 详细 信息 。 例 如 ， 分 发 哪些 文件 ， 实 际 作业 配置 参数 值 等 ， 可 以 用 于 调试 用 户 的 Hadoop 程 序 。 


6.7 Hadoop 的 pipes 命 令 


Pipes 接 口 是 MapReduce 针 对 C++ 的 编程 接口 ， 和 Streaming 接 口 不 同 之 处 在 于 ， 在 Pipes 接 口中 用 户 的 C++ 程 序 和 Hadoop Java 框 架 之 间 通 过 Socket 进 行 通信 。 关 于 pipes 的 详细 原理 将 在 第 8 章 进行 


介绍 ， 本 节 仅 对 pipes 命 令 进行 介绍 。 
6.7.1 pipes 命令 


在 Hadoop 安 装 目录 下 的 bin/hadoop 脚 本 中 已 经 集成 了 pipes 命 令 ， 使 用 语法 如 下 : 


hadoop pipes [options ] 


[options] 是 pipes 的 参数 选项 ，pipes 支 持 的 参数 如 表 6-32 所 示 。 


表 6-32 ”pipes 命 令 参 数 选项 说 明 


参数 选项 名 称 参数 选项 意义 描述 


-input <path> 输入 数据 的 HDFS 路 径 

-output <path> 输出 数据 的 HDFS 路 径 

-jar <jar file> 用 户 应 用 程 夺 的 jar 包 文 件 
-inputformat <class> 指定 输入 数据 的 inputformat 类 
-map <class> Java 编写 的 Mapper 类 

-partitioner <class> Java 编写 的 partitioner 类 

-Teduce <class> Java 编写 的 Reducer 类 

-Wiiter <class> Java 编写 的 RecordWriter 类 
-program <executable> Pipes 接口 编写 的 C++ 可 执行 程序 
-reduces <num> Reduce 的 数目 


从 表 6-32 中 可 以 看 到 ， 在 pipes 参 数 中 也 支持 使 用 MapReduce Java API 编 写 的 Mapper 及 Reducer 等 组 件 ， 因 此 Pipes 接 口 是 一 种 混合 编程 接口 ， 可 以 混合 使 用 Java 以 及 C/C++ 编写 MapReduce 应 用 
程序 。pipes 命 令 也 支持 Hadoop 命 令 中 的 genericOptions 参 数 选项 ， 具 体 可 以 参考 表 6-3 中 所 示 的 参数 功能 。 


6.7.2 ”参数 使 用 分 析 
6.7.1 节 对 pipes 命 令 进行 了 介绍 ， 这 里 对 pipes 命 令 所 支持 的 参数 选项 进行 分 析 说 明 。 
1.-input 和 -output 


和 streaming 的 参数 类 似 ，-input 用 于 指定 作业 的 HDFS 输 入 路 径 ， 文 件 或 者 目录 都 可 以 ， 可 以 使 用 * 通 配 符 ， 可 以 指定 多 个 目录 作为 输入 ; -output 用 于 指定 作业 的 输出 ， 目 录 必 须 是 在 HDFS 上 不 存在 
的 。 


2.-jar<jar file> 

如 果 用 户 使 用 java 的 MapReduce APl 来 编写 Mapper 类 及 Reducer 类 ， 则 需要 打包 为 jar 文 件 ， 然 后 使 用 -jar 参 数 选项 指定 jar 文 件 。 
3.-inputformat< class> 

和 streaming 参 数 意义 类 似 ，-inputformat 用 于 指定 输入 数据 的 InputFormat Java 类 ， 默 认 是 使 用 TextlinputFormat 类 ， 用 户 可 以 自 定义 为 其 他 的 输入 格式 或 者 自己 实现 的 InputFormat 接 口 类 。 
4.-map<class> 和 -reduce<class> 


可 以 通过 -map 人 参数 指定 Java 编 写 的 Mapper 类 ， 使 用 -reduce 指 定 Java 编 写 的 Reducer 类 ， 也 就 是 说 使 用 Pipes 编 程 接口 的 同时 用 户 还 可 以 使 用 MapReduce 原 生 的 Java 接 口 ， 也 可 以 使 用 C++ 的 
HadoopPipes 接 口 编写 Mapper 及 Reducer 类 ， 原 则 上 可 以 混合 使 用 Java 和 C/C++ 来 编写 MapReduce 程 序 。 


5.-partitioner 


和 streaming 一 样 ， 这 个 参数 用 于 指定 Java 实 现 的 partitioner， 默 认 使 用 HashPartitioner 类 ， 可 以 直接 使 用 Hadoop 自 带 的 partitioner 实 现 类 ， 或 者 自己 使 用 Java 重 新 编写 ， 在 自 定义 时 需要 继承 
Partitioner<K，V> 基 类 。 当 然 用 户 也 可 以 利用 HadoopPipes 接 口 使 用 C+ + 语言 编写 自 定 义 的 Partitioner 类 ， 但 需要 继承 HadoopPipes: : Partitioner 类 。 


6.-writer<class> 


Java 实 现 的 RecordWriter， 不 指定 这 个 参数 时 默认 使 用 Hadoop 内 置 的 RecordWriter， 也 可 以 自 定义 实现 ， 然 后 通过 -writer 参 数 指定 具体 的 类 名 。 


需要 注意 的 是 ， 通 过 HadooppPipes 接 口 也 可 以 用 C++ 定制 RecordReader 和 RecordWriter 组 件 ， 但 是 这 种 方式 会 最 终 通 过 Hadoop 自 带 的 C++ 库 libhdfs 采 用 JNI 模 式 来 读 写 HDFS， 因 此 效率 不 高 。 建 
议 直接 使 用 Hadoop 内 部 的 RecordReader 和 RecordWriter， 或 者 使 用 Java 语 言 编写 实现 。 


7.-program<executable> 


这 个 参数 用 于 指定 用 户 使 用 C+ + 编写 的 pipes 可 执行 程序 。 例 如 用 户 使 用 C++ 编写 的 pipes 程 序 ， 编 译 后 可 执行 程序 为 pipesapp， 首 先 需要 将 可 执行 程序 pipesapp 上 传 到 HDFS， 例 如 上 传 到 HDFS 的 路 
径 为 /user/nuoline/pipesapp， 命 令 格式 如 下 : 


hadoop pipes \ 

-D hadoop.pipes.java.recordreader=true \ 
-D hadoop.pipes.java.recordwriter=true \ 
-input input path \ 

-output output path \ 

-program /user/nuoline/pipesapp 


上 述 的 配置 参数 hadoop.pipes.java.recordreader=true 和 hadoop.pipes.java.recordwriter=true 表 示 设 置 pipes 使 用 Hadoop 默 认 的 输入 /输出 方式 。 


8.-reduces<num> 


此 参数 用 于 指定 Reducer 的 数目 。 设 置 Reducer 的 数目 时 需要 综合 考虑 几 个 问题 : 如 果 单 个 Reducer 的 运行 时 间 不 能 过 长 ， 那 么 单个 Reducer 处 理 数 据 量 也 需要 控制 ， 因 为 每 个 Reducer 处 理 的 数据 都 会 
按照 key 进 行 排序 ， 数 据 量 过 大 会 使 shuffle 和 sort 阶 段 很 长 ， 另 外 如 果 Reducer 的 输出 是 下 一 轮 MapReduce 作 业 的 输入 ， 则 结果 文件 不 易 过 小 ， 可 以 适当 减少 Reducer 的 数目 。 


6.8 人 小结 


本 章 详细 介绍 了 Hadoop 的 命令 系统 ， 首 先 对 Hadoop 通 用 命令 组 成 做 了 描述 ， 然 后 分 别 介绍 了 Hadoop 的 用 户 命 令 、Hadoop 管 理 员 命令 、 性 能 测试 命令 、 常 用 的 应 用 命令 、streaming 命 令 、pipes 命 
令 。 用 户 命令 是 针对 Hadoop 使 用 者 的 命令 ， 可 以 通过 这 些 命令 对 Hadoop 进 行 各 种 操作 ;管理 员 命 令 主要 是 Hadoop 集 群 管理 者 使 用 的 命令 ， 用 于 对 集群 进行 管理 和 维护 ; 测试 命令 是 Hadoop 自 带 的 对 自 
身 进 行 功能 和 性 能 测试 的 基本 命令 ， 可 以 直接 使 用 这 些 命令 来 对 集群 进行 各 种 基准 测试 ， 命 令 的 实现 打包 在 形 如 hadoop-test-*.jar 的 jar 包 文件 中 ; 应 用 命令 是 Hadoop 中 自 带 的 一 些 有 用 的 应 用 ， 打包) 为 形 
如 hadoop-examples-*.jar 的 jar 包 文件 中 ; streaming 和 pipes 命 令 中 主要 介绍 了 其 命令 格式 以 及 参数 的 使 用 说 明 。 


读者 通过 学 习 本 章 的 内 容 可 以 对 Hadoop 系 统 内 部 的 命令 有 一 个 更 加 全 面 的 理解 。 
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第 7 章 ”MapReduce 深 度 分 析 


苏轼 有 诗 云 : 横 看 成 岭 侧 成 峰 ， 远 近 高 低 各 不 同 ， 不 识 庐山 真面目 ， 只 缘 身 在 此 山中 。 这 句 诗 启 迪 我 们 在 认识 一 个 事物 时 从 不 同 的 角度 观看 会 看 到 不 同 的 结果 ， 只 从 局 部 着 眼 是 看 不 到 真相 和 全 貌 的 。 
学 习 MapReduce 也 一 样 ， 从 架构 角度 看 ，MapReduce 是 一 种 Master/Slave 结 构 ， 核 心 组 件 为 JobTracker 和 和 TaskTracker;， 从 处 理 流程 和 编程 模型 角度 ， 主 要 包括 两 个 阶段 : Map 和 Reduce。 我 们 要 深入 
分 析 MapReduce 首 先 应 该 从 全 局 切入 ， 先 分 析 其 总 的 流程 结构 ， 然 后 像 剥 洋葱 一 样 层 层 深入 来 分 析 每 个 核心 的 功能 模块 。 


本 章 我 们 将 先 对 MapReduce 的 流程 进行 总 体 分 析 ， 然 后 深入 分 析 MapTask、Reduce-Task、JobTracker、TaskTracker， 心 跳 检 测 机 制 以 及 作业 的 创建 和 执行 过 程 的 核心 细节 。 


7.1 MapReduce 总 结构 分 析 


7.1.1 数据 流向 分 析 

MapReduce 是 一 种 并 行 数据 处 理 框架 ， 因 此 首先 需要 关注 的 就 是 在 系统 中 数据 的 流向 问题 ， 也 就 是 从 输入 到 输出 过 程 中 数据 流 的 传输 过 程 ， 这 里 不 考虑 数据 在 流动 过 程 中 的 函数 调用 过 程 ， 具 体 数据 
流向 示意 图 ， 如 图 7-1 所 示 。 

从 图 7-1 中 可 以 看 出 数据 在 MapReduce 系 统 中 的 流向 过 程 ， 箭 头 代 表 流 向 ， 箭 头 上 的 数字 对 应 着 数据 流向 的 顺序 步 又， 具体 数据 流向 步骤 如 下 。 


步骤 1 输入 文件 从 HDFS 流 向 到 Mapper 节 点 。 在 一 般 情 况 下 ， 存 储 数据 的 节点 就 是 Mapper 运 行 的 节点 ， 不 需要 在 节点 之 间 进 行 数据 传输 ， 也 就 是 尽量 让 存储 靠近 计算 。 但 是 ， 由 于 用 户 的 数据 文件 
往往 不 是 均衡 地 分 布 在 整个 集群 中 ， 而 MapReduce 的 计算 槽 位 资源 却 是 均衡 地 分 布 在 整个 集群 中 的 ， 因 此 某 些 计算 节点 就 需要 从 数据 存储 节点 获取 数据 到 自己 的 计算 节点 ， 这 样 就 会 存在 数据 从 HDFS 上 的 
存储 节点 到 另 一 计算 节点 的 数据 传输 ， 为 了 提高 系统 带宽 资源 的 利用 率 ，Hadoop 会 从 距离 计算 节点 最 近 的 数据 副本 传输 数据 。 
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图 7-1 MapReduce 数 据 流向 示意 图 


步骤 2 ”Mapper 输 出 到 内 存 缓冲 区 。Mapper 的 输入 是 解析 后 的 键 值 对 ， 输 出 是 经 过 处 理 后 新 的 < key，value> 键 值 对 。Mapper 的 输出 并 不 是 直接 写 到 本 地 文件 系统 ， 而 是 先 写 入 一 个 内 存 缓冲 区 ， 当 
缓冲 区 达到 一 定 的 阔 值 后 就 将 缓冲 区 中 的 数据 以 一 个 临时 文件 的 形式 写 入 本 地 磁盘 ， 当 整个 map 任 务 结束 后 会 对 这 个 map 任 务 所 产生 的 所 有 临时 文件 进行 合并 ， 并 产生 最 终 的 输出 文件 。 需 要 注意 的 是 
Partitioner 就 发 生 在 这 个 阶段 ， 也 就 是 在 写 入 内 存 缓冲 区 的 同时 执行 了 Partitioner 对 文件 进行 分 区 ， 以 便 后 续 对 应 相应 的 Reduce 进 行 处 理 。 


步骤 3 ”从 内 存 缓冲 区 到 本 地 磁盘 。 当 内 存 缓冲 区 中 的 数据 达到 一 个 靖 值 时 就 开始 写 到 本 地 磁盘 中 ， 默 认 的 缓冲 区 大 小 是 100MB， 溢 写 比例 默认 为 0.8， 当 然 也 可 以 通过 spil.percent 参 数 来 调节 这 个 比 
例 。 当 整个 缓冲 区 达到 溢 写 比例 阔 值 时 (默认 参数 为 100x0.8=80MB) ， 溢 写 线程 就 会 启动 并 锁定 这 80MB 内 存 执行 溢 写 过 程 ， 从 缓冲 区 写 到 本 地 磁盘 的 过 程 就 称 为 spill。 溢 写 线程 启动 的 同时 还 会 对 这 
80MB 的 内 存 数 据 依据 key 的 序列 化 字 节 做 排序 。 


如 果 用 户 作业 设 置 了 Combiner， 那 么 在 溢 写 到 磁盘 之 前 会 对 Map 输 出 的 键 值 对 调用 Combiner 类 做 规约 操作 ， 这 样 做 的 目的 可 以 减少 溢 写 到 本 地 磁盘 文件 的 数据 量 ， 从 而 减少 Shuffle 阶 段 从 Mapper 
端 到 Reducer 端 的 数据 传输 量 。 


在 这 个 过 程 中 还 会 多 次 对 临时 文件 进行 合并 ， 合 并 过 程 以 Partitioner 分 区 为 单位 进行 ， 对 于 同一 分 区 将 进行 多 次 归并 操作 ， 排 序 后 最 终生 成 一 个 大 的 Region 文 件 。 


步骤 4 从 Mapper 端 的 本 地 文件 系统 流向 Reduce 端 。 这 也 就 是 Reduce 中 的 Shuffle 阶 段 ， 分 为 三 种 情况 : 第 一 种 ， 对 于 多 个 Reduce 的 情况 下 ， 需 要 将 Mapper 输 出 中 的 分 区 Region 文 件 远程 复制 到 相 
应 的 Reduce 节 点 ， 见 图 7-1 中 的 序号 4-1; 第 二 种 ，Mapper 节 点 所 在 的 机 器 有 Reduce 槽 位 ， 则 Mapper 输 出 中 的 分 区 Region 文 件 会 直接 先 写 入 本 机 Reduce 的 内 存 缓冲 区 ， 见 图 7-1 中 的 序号 4-2; 第 三 种 ， 
本 机 的 Reduce 还 会 接收 来 自 其 他 Mapper 输 出 的 分 区 Region 文 件 ， 见 图 7-1 中 序号 4-3。 需 要 注意 的 是 Reduce 端 的 这 个 内 存 缓冲 区 也 有 一 个 阅 值 ， 当 相应 的 Region 文 件 大 于 这 个 阅 值 时 便 写 入 磁盘 。 


步骤 5 从 Reduce 端 内 存 缓冲 区 流向 Reduce 端 的 本 地 磁盘 。 这 个 过 程 就 是 Reduce 中 的 Merge 和 Sort 阶 段 。Merge 分 为 三 种 情况 : 内 存 文 件 合 并 ( 见 图 7-1 中 序号 5-1) 和 磁盘 文件 合并 ( 见 图 7-1 中 序 
号 5-2) ， 同 时 还 会 以 key 为 键 进行 排序 ， 最 终 会 生成 已 经 对 相同 key 的 value 进 行 聚集 并 排序 好 的 输出 文件 。 


步骤 6 Merge 和 Sort 之 后 直接 流向 Reduce 辆 数 进行 归 约 处 理 。 


步骤 7 Reduce 处 理 完毕 之 后 根据 用 户 指定 的 输出 类 型 写 入 HDFs 中 ， 生 成 相应 的 part-* 形 式 的 输出 文件 。 


7.1.2 “处理 流程 分 析 


7.1.1 节 分 析 了 MapRedcue 中 的 数据 流向 问题 ， 从 数据 流向 的 角度 可 以 看 出 MapReduce 在 处 理 数 据 时 数据 文件 在 整个 过 程 中 的 流向 路 径 ， 这 对 于 理解 MapRedcue 是 非常 重要 的 。 在 上 述 分 析 过 程 中 仅 
仅 讨 论 了 Mapper 和 Reducer 组 件 ， 而 事实 并 非 只 有 这 两 个 组 件 参与 数据 流向 处 理 ， 数 据 流动 的 过 程 也 是 数据 处 理 的 过 程 ， 因 此 还 涉及 MapTask、ReduceTask、JobTracker、TaskTracker、JobClient、 
JoblnProgress、TaskInProgress 等 核心 组 件 ， 本 节 将 详细 描述 MapReduce 总 的 调用 处 理 流程 ， 该 流程 示意 图 ， 如 图 7-2 所 示 。 


从 图 7-2 中 可 以 看 出 用 户 应 用 在 MapReduce 框 架 中 的 整体 处 理 过 程 ， 图 中 的 箭头 表示 调用 关系 ， 序 号 表示 处 理 的 步骤 。 下 面 对 每 一 个 步骤 做 详细 分 析 。 


步骤 1 用 户 的 应 用 通过 JobClinet 类 提交 到 JobTracker， 在 JobClient 类 中 会 将 用 户 应 用 程序 的 Mapper 类 、Reducer 类 以 及 配置 JobCon 付 J 包 成 为 一 个 JAR 文 件 并 保存 在 HDFS 上 ( 见 图 7-2 中 的 bp) ， 在 
配置 JobConf 中 至 少 需要 指定 输入 路 径 ( 见 图 7-2 中 的 a) 、 输 出 路 径 以 及 Mapper 和 Reducer 类 名 等 参数 。JobClient 在 提交 作业 的 同时 会 把 打包 的 作业 JAR 文 件 的 路 径 一 起 提交 到 JobTracker 的 master 服 
务 ， 也 就 是 提交 给 作业 调度 器 ， 见 图 7-2 中 的 箭头 序号 1。 
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图 7-2 MapReduce 总 调用 处 理 流程 示意 图 
步骤 2 ”在 JobClient 提 交 Job 后 ，JobTracker 会 创建 一 个 JoblnProgress 来 跟踪 和 调度 这 个 作业 ， 并 将 其 添加 到 调度 器 的 作业 队列 中 ， 见 图 7-2 中 的 箭头 序号 2。 


步骤 3 JoblnProgress 会 根据 提交 的 作业 JAR 文 件 中 定义 的 输入 数据 集 创 建 相应 数量 的 TasklnProgress 用 于 监控 和 调度 MapTask， 同 时 再 创建 指定 数目 的 TasklnProgress 用 于 监控 和 调度 
ReduceTask， 默 认为 1 个 ReduceTask， 见 图 7-2 中 的 箭头 序号 3。 


步骤 4 JobTracker 启 动 任务 时 通过 TasklnProgress 来 启动 作业 任务 ( 见 图 7-2 中 的 箭头 序号 4) ， 这 时 会 把 Task 对 象 ( 即 MapTask 和 ReduceTask) 序列 化 写 入 相应 的 TaskTracker 服 务 中 ( 见 图 7-2 中 
的 箭头 序号 5) 。 


步骤 5 TaskTracker 收 到 后 会 创建 对 应 的 TasklnProgress (注意 : 该 处 的 TasklnProgress 实 现 已 经 不 是 JobTracker 中 使 用 的 TasklnProgress， 但 是 其 作用 是 类 似 的 ) 用 于 监控 和 调度 运行 该 Task ( 见 
图 7-2 中 的 箭头 序号 6) 。 


步骤 6 ”启动 具体 的 Task 进 程 ，TaskTracker 通 过 TasklnProgress 管 理 的 TaskRunner 对 象 来 运行 具体 的 Task， 见 图 7-2 中 的 箭头 序号 7。 
步骤 7 TaskRunner 自 动 装载 用 户 作业 JAR 文 件 ， 并 设置 好 环境 变量 后 启动 一 个 独立 的 Java 子 进程 来 执行 Task，TaskRunner 会 首先 调用 执行 MapTask， 见 图 7-2 中 的 箭头 序号 8。 


步骤 8 MapTask 先 调用 Mapper ( 见 图 7-2 中 的 箭头 序号 9) ，Mapper 会 根据 用 户 作 业 JAR 中 定义 的 输入 数据 集 按 <key1，value1> 键 值 对 读 入 ， 处 理 完成 生成 临时 的 <key2，value2> 键 值 对 。 如 果 
用 户 还 定义 了 Combiner， 那 么 MapTask 会 在 Mapper 完 成 后 调用 用 户 指定 的 Combiner ( 见 图 7-2 中 的 箭头 序号 10) ， 并 将 相同 key 的 值 做 归 约 处 理 ， 以 减少 Map 输 出 的 键 值 对 集合 


步骤 9 在 MapTask 的 任务 全 部 完成 后 ，TaskRunner 紧 接着 调用 ReduceTask 进 程 来 启动 Reducer ( 见 图 7-2 中 的 箭头 序号 11) ， 需 要 注意 的 是 MapTask 和 ReduceTask 不 一 定 运行 在 同一 个 
TaskTracker 节 点 中 。 


步骤 10 ”ReduceTask 直 接 调用 Reducer 类 处 理 Mapper 的 输出 结果 ( 见 图 7-2 中 的 箭头 序号 12) ，Reducer 生 成 最 终结 果 <key3，value3> 键 值 对 ， 并 根据 用 户 指定 的 输出 类 型 写 入 HDFS 中 。 


7.2 MapTask 实 现 分 析 


7.1.2 节 从 整体 上 分 析 RN 从 图 7-2 中 可 以 看 到 MapTask 先 被 TaskRunner 调 用 执行 ， 然 后 调用 执行 用 户 的 Mapper 类 从 而 开始 Map 任 务 处 理 阶段 ， 因 此 MapTask 是 
整个 Map 阶 段 最 核心 的 类 ， 源 代码 也 有 1742 行 的 代码 量 ， 甚 为 复杂 ， 本 节 将 具体 分 析 MapTask 部 分 


7.2.1 总 逻辑 分 析 


MapTask 类 继承 了 Task 类 ， 重 写 了 run() 方 法 ，MapTask 正 是 通过 调用 run() 方 法 来 执行 整个 Map 任 务 的 ， 总 的 执行 逻辑 图 ， 如 图 7-3 所 示 。 
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图 7-3 ”MapTask 总 执行 逻辑 图 


从 图 7-3 中 可 以 看 出 MapTask 整 体 的 处 理 逻辑 ， 这 里 从 MapTask 的 初始 化 逻辑 开始 ， 通 过 调用 initialize() 方 法 执行 初始 化 工作 。Map 的 初始 化 任务 包括 JobContext、TaskContext、 输 出 路 径 等 ， 调 用 
的 是 Task.initialize() 方 法 。 初 始 化 完成 之 后 会 依次 判断 作业 类 型 ，MapTask 中 有 三 种 特殊 的 作业 : CleanupJobTask (清理 Map 任 务 ) 、SetupJobTask (初始 化 Map 任 务 ) 和 TaskCleanupTask (清理 作 
业 任 务 ) ， 这 三 种 类 型 的 作业 会 根据 需要 进行 判断 调用 。 由 于 目前 的 Hadoop 版 本 继续 兼容 之 前 旧 的 MapReuce API 接 口 ， 因 此 在 执行 Mapper 时 也 会 进行 判断 ， 这 里 有 一 个 传 入 参数 UseNewApi， 它 的 值 
是 通过 JobConf 的 GetUseNewMapper() 方 法 获得 ， 当 Job.submit0 提 交 作 业 时 ，WaitForCompletion() 就 用 submit0 设 置 使 用 New API1， 此 时 UseNewApi 就 为 true。 否 则 用 户 在 使 用 旧 的 MapReduce 接 
口 提交 作业 时 就 设置 UseNewApi 为 false， 判 断 之 后 就 相应 地 执行 RunNewMapper() 方 法 或 RunOldMapper() 方 法 ， 从 而 开始 Mapper 的 执行 。 


由 于 新 的 MapReduce AP| 更 加 合理 和 成 熟 ， 并 且 已 经 广泛 使 用 ， 因 此 这 里 以 RunNewMapper 为 例 进行 分 析 ， 下 面 介绍 主要 的 处 理 流程 。 


步骤 1 创建 执行 Mapper 所 需要 的 对 象 。 首 先 创建 的 对 象 有 : TaskAttemptContext、Mapper、InputFormat、lnputsplit、RecordReader。 这 些 类 对 象 主要 为 Mapper 要 读 取 的 输入 数据 及 切 分 做 
准备 。 


步骤 2 ”创建 所 需要 的 输出 收集 器 OutputCollector。 创 建 的 收集 器 的 类 型 依 是 否 有 Reduce 任 务 而 不 同 ， 如 果 作 业 没 有 Reduce 任 务 (Reduce 数 目 为 0，) 则 创建 NewDirect-OutputCollector 收 集 器 对 
如 果 有 Reduce 任 务 ， 则 创建 NewOutputCollector 收 集 器 对 象 。OutputCollector 用 于 收集 Mapper 的 输出 键 值 对 。 


站 


步骤 3 初始 化 RecordReader， 通 过 input.initialize(split，mapperContext) 来 对 输入 数据 进行 初始 化 。 
步骤 4 执行 Mapper， 通 过 mapperrun(mapperContext) 最 终 调 用 用 户 指定 的 Mapper 类 对 数据 进行 Map 操 作 处 理 。 


以 上 就 是 RunNewMapper 总 的 处 理 步骤 ， 如 果 根 据 功 能 逻辑 划分 ， 整 个 MapTask 任 务 逻 辑 流 程 图 ， 如 图 7-4 所 示 。 
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图 7-4 MapTask 任 务 远 辑 流 程 图 


从 图 7-4 中 可 以 看 出 MapTask 的 总 逻辑 流程 ， 包 括 以 下 几 个 阶段 : 


Read 阶段 ， 通 过 RecordReader 对 象 ， 对 HDFS 上 的 文件 进行 split 切 分 ， 调 用 用 户 指 定 的 输入 文件 格式 类 来 解析 每 一 个 split 文 件 ， 输 出 键 值 对 。 

“Map 阶段 ， 对 输入 的 键 值 对 调用 用 户 编 写 的 Map 函 数 进行 处 理 ， 并 输出 键 值 对 。 

-Collector 和 Partitioner 阶 段 ， 收 集 Mapper 的 输出 ， 并 在 OutputCollector 函 数 内 部 对 键 值 对 进行 Partitioner 分 区 ， 以 便 确定 相应 的 Reducer 处 理 ， 这 个 阶段 将 最 终 的 键 值 对 集合 输出 到 内 存 缓冲 区 。 
“Spill 阶 段 ， 包 含 Sort 和 Combiner 阶 段 ， 当 内 存 缓 冲 区 达到 阔 值 后 会 写 到 本 地 磁盘 ， 在 这 个 过 程 中 会 对 Mapper 的 输出 键 值 对 进行 排序 ， 如 果 设 置 了 Combiner 会 执行 Combiner 函 数 。 

:Merge 阶段 ， 对 Spill 阶 段 在 本 地 磁盘 生成 的 小 文件 进行 多 次 合并 ， 最 终生 成 一 个 大 文件 。 


7.2.2 ” ”Read 阶段 


Read 阶 段 始 于 在 RunNewMapper() 方 法 中 创建 RecordReader 对 象 ， 在 MapTask.java 中 相关 核心 代码 如 下 : 


// 创建 InputFormat 对 象 
org.apache.hadoop.mapreduce.InputFormat<INKEY, INVALUE> inputFormat = (org.apache. 
hadoop.mapreduce. InputFormat<INKEY, INVALUE>) 
ReflectionUtils.newInstance (taskContext .getIinputFormatClass(), job); 
// 重建 InputSplit 对 象 
org.apache.hadoop.mapreduce.InputSplit split = null; 
split = getSplitDetails (new Path (splitIndex.getSplitLocation()), 
splitIndex.getStartoffset () )，; 
// 创建 RecordReader 对 象 
org.apache.hadoop.mapreduce.RecordReader<INKEY, INVALUE> input = new NewTracking 


RecordReader<INKEY, INVALUE> (split, inputFormat, reporter，]job，taskContext) ， 


从 上 述 代码 中 可 以 看 出 : 首先 ， 通 过 taskContext.getinputFormatClass() 得 到 用 户 指定 的 InputFormatClass 来 创建 InputFormat 对 象 实例 ;其 次 ， 创 建 Inputsplit 对 象 ， 这 个 对 象 负责 对 文件 进行 数据 
块 的 逻辑 切 分 ; 最 后 ， 创 建 RecordReader 对 象 。InputFormat 对 象 会 提供 getSplit( 重 要 方法 ， 通 过 getSplit(0 将 输入 文件 切 分 成 多 个 逻辑 InputSplit 实 例 并 返回 ， 每 一 个 InputSplit 实 例 就 由 对 应 的 一 个 
Mapper 来 处 理 ， 通 过 RecordReader 对 象 会 把 Inputsplit 提 供 的 输入 文件 转化 为 Mapper 所 需要 的 keys/values 键 值 对 集合 形式 。 


7.2.3 ”Map 阶段 


Map 阶 段 是 MapTask 中 的 重头 戏 ， 是 最 核心 的 阶段 ， 这 节 将 结合 源码 来 分 析 Map 阶 段 的 细节 。Map 阶 段 始 于 RunNewMapper(0 函 数 中 的 mapperrun(mapperContext) 调 用 ， 但 是 具体 调用 哪 一 个 
Mapper 类 呢 ? 我 们 知道 在 提交 作业 时 使 用 Job.setMapperClass(MapperName) 方 法 设置 用 户 的 Mapper 类 ， 在 执行 MapTask.runNewMapper0 函 数 的 过 程 中 是 通过 Task-AttemptContext 对 象 的 
GetMapperClass0 方 法 得 到 用 户 设置 的 Mapper 类 的 ， 如 果 用 户 没有 设置 ， 则 会 自动 加 载 Hadoop 中 的 默认 Mapper 类 一 一 IdentityMapper 类 ， 这 个 默认 类 的 功能 就 是 输入 什么 、 输 出 什么 ， 也 就 是 什么 都 
不 做 。 


下 面 继 续 分 析 Mapper， 这 里 有 必要 对 Mapper 的 源码 进行 解读 ，Mapper 的 类 图 ， 如 图 7-5 所 示 。 


kKEYIN,VALUEIN,KEYOUT ,VALUEOUT! 


# setup (Mapper<KEYIN,VALUEIN,KEYOUT,VALUEOUT>.Context context) 

# map (KEYIN key, VALUEIN value, Mapper<KEYIN,VALUEIN,KEYOUT,VALUEOUT>.Context context) : void 
# cleanup (Mapper<KEYIN,VALUEIN,KEYOUT,VALUEOUT>.Context context) : void 
+ run (Mapper<KEYIN,VALUEIN,KEYOUT,VALUEOUT>.Context context) : void 


NN 
和 


Mapper::Context 


+ <<Constructor>> Context (Configuration conf TaskAttemptlD taskid, RecordReader<KEYIN, VALUEIN> reader, RecordWriter<KEYOUT, VALUEOUT> 


MapContext_KEYIN_VALUEIN_ KEYOUT_VALUEOUT 


<<bind>> 
图 7-5 ”Mappet 类 图 


从 图 7-5 中 可 以 看 出 : Mapper 类 中 有 setup(0、map0、cleanup0 和 run(0 四 个 核心 方法 ， 其 中 setup() 一 般 用 来 进行 一 些 执行 map() 前 的 准备 工作 ; cleanup() 则 用 来 执行 一 些 清理 工作 如 关闭 文件 等 ; 
map( 是 用 户 重 写 的 函数 ， 也 就 是 真正 执行 Map 操 作 的 运行 函数 ; run0 方 法 提供 了 setup 一 map 一 cleanup0 的 执行 流程 。Mapper 的 执行 就 是 从 run0 方 法 开始 的 ， 我 们 可 以 看 一 下 run0 的 实现 : 


public void run (Context context) throws IOException, InterruptedException { 
setup (context); 


while (context.nextKeyValue()) { 

map (Context .getCurrentKey(), context.getCurrentValue(), context); 
} 

cleanup (context); 


从 上 述 代码 中 可 以 看 到 run() 方 法 传 入 了 一 个 Context 对 象 ， 然 后 依次 执行 setup(context)map() 一 cleanup(context)。 


在 Map 中 是 通过 Context 对 象 的 getCurrentKey0 和 getCurrentValue( 得 到 <key，value> 键 值 对 的 ， 然 后 在 Map 函 数 中 根据 用 户 的 Map 操 作 逻 辑 进 行 处 理 ， 并 调用 Context 对 象 write(K，V) 进 行 输 
出 。 至 此 Map 阶 段 的 任务 完成 。 


7.2.4 Collector 和 Partitioner 阶 段 
从 7.2.3 节 知道 map(0 函 数 处理 完 成 后 通过 Context 对 象 的 write(K，V) 函 数 输出 结果 ， 但 是 这 个 结果 并 不 是 直接 写 入 内 存 缓冲 区 ， 而 是 有 一 个 Collector 对 象 进 行 收集 。 这 里 可 以 对 Map 中 的 
个 RecordWriter 的 具体 实现 就 是 NewOutputCollector 收 集 器 类 (MapTask.java 中 的 私有 类 ， 对 应 于 有 Reduce 任 务 的 情况 ) 或 者 NewDirectOutputCollector 收 集 器 类 (对 应 于 Reduce 数 目 为 


0) ，Collector 是 MapTask 的 内 部 类 ， 也 就 是 说 map 的 输出 最 终 是 通过 这 个 类 的 collector.collect(K，V，partition) 收 集 的 ，partition 是 对 应 的 Reduce 分 区 号 ， 是 Partitioner 的 返回 值 ， 也 就 是 应 该 传输 到 
哪个 Redcue 节 点 处 理 的 。 上 述 阶 段 示 意图 ， 如 图 7-6 所 示 。 


context.write(K,V) Partitioner<K, V>() collector.collect(K, V,partition) 


图 7-6 ”Collector 和 Pattitionet 阶 段 示意 图 


为 了 对 图 7-6 有 一 个 更 加 深入 的 了 解 ， 这 里 以 Reduce 的 数目 大 于 0 的 情况 为 例 ， 分 析 一 人 NewOutputCollector 收 集 器 类 ， 先 看 其 构造 函数 ， 核 心 代码 如 下 : 


NewOutputCollector (org.apache.hadoop.mapreduce.JobContext jobContext, JobConf 
job, TaskUmbilicalProtocol umbilical, 


TaskReporter reporter 

) throws IOException, ClassNotFoundException { 
collector = new MapOutputBuffer<K,V> (umbilical, job, es 
注释 1， 输出 内 存 缓冲 
partitions = jobContext .getNumReduceTasks () ;// 注释 2: i 
if (partitions > 0) 1 
partitioner = (org.apache.hadoop.mapreduce.Partitioner<K,V>) 
ReflectionUtils.newInstance (jobContext .getPartitionerClass(), job); 


// 注释 3: 通过 反射 得 到 具体 的 Partitioner 实 例 对 象 


加 


} else { 
partitioner = new org.apache.hadoop.mapreduce.Partitioner<K,V>() { 
QOverride 
public int getPartition(K key, V value, int numPartitions) { 

return -1; 
} 
} 
} 
} 


通过 上 述 代码 可 以 看 出 : 注释 1 处 的 MapOutputBuffer 就 是 收集 的 <key，value，partition> 要 写 入 的 内 存 缓冲 区 ， 内 存 缓冲 区 主要 是 由 三 个 环形 结构 的 数组 组 成 的 ， 三 个 环形 结构 的 数组 分 别 为 
kvoffsets、Kvindices、Kvbuffer。 具 体 结构 及 功能 将 结合 Spill 阶 段 详 细 描 述 ， 在 这 里 要 知道 的 就 是 Map 处 理 完 后 先 要 写 入 的 内 存 缓冲 区 ; 接着 看 注释 2 部 分 的 代码 ， 
jobContext.getNumReduceTasks() 得 到 Reducer 的 数目 ， 然 后 进行 判断 ， 如 果 Reducer 的 数目 大 于 0 则 通过 jobContext.getPartitionerClass( 得 到 Partitioner 类 对 象 (注释 3 部 分 代码 ) ， 并 通过 调用 
getPartition() 函 数 获取 相应 Partitioner 分 区 号 ， 默 认 的 Partitioner 是 HashPartitioner， 实 现 如 下 : 


public class HashPartitioner<K, V> extends Partitioner<K, V> { 
public int getPartition(K key, V value, 
int numReduceTasks) { 
return (key.hashCode() & Integer.MAX VALUE) $ numReduceTasks; 
} 
} 


通过 上 述 代码 可 以 看 出 : getPartition() 水 数 仅仅 是 对 传 入 的 key 进 行 了 哈 希 ， 然 后 对 Reducer 的 数目 进行 了 取 模 运算 ， 这 个 过 程 就 是 Partitioner 阶 段 ， 也 就 是 决定 输出 键 值 对 应 该 由 哪个 Reduce 节 点 进 
行 归 约 处 理 的 。 


在 得 到 输出 键 值 对 的 Reduce 分 区 号 后 最 终 通 过 调用 NewOutputCollector 收 集 器 类 的 write0 方 法 进行 Collecto 操 作 ， 核 心 代码 如 下 : 


public void write(K key, V value) throws IOException, InterruptedException { 
collector.collect (key, value, 
partitioner.getPartition (key, value, partitions)); 


如 果 用 户 需要 根据 自己 的 需要 进行 Partitioner， 则 可 以 继承 Partitioner<K，V> 来 写 自 己 的 Partitioner 实 现 类 ， 并 且 重 新 定义 自己 的 收集 器 类 。 自 定义 收集 器 需要 实现 Mapper-OutputCollector 接 
口 ， 并 实现 collect、close、flush 三 个 重要 方法 。 


7.2.5 ”Spill 阶 段 


首先 说 明 一 下 什么 是 Spill 阶 段 ，Spill 始 于 Collector 和 Partitioner 阶 段 ， 以 <K，V，partition> 格 式 写 入 内 存 缓冲 区 ， 当 达到 内 存 缓冲 区 阅 值 或 其 他 触发 条 件 时 便 会 开始 浇 写 到 磁盘 文件 ， 这 个 过 程 就 是 
spil 阶 段 ， 在 这 个 阶段 还 有 两 个 重要 的 逻辑 : Sort 和 Combiner (如 果 用 户 设置 了 Combiner 类 ) 。 下 面 将 对 Spill 过 程 进行 详细 分 析 。 
首先 需要 知道 相关 的 参数 和 数据 结构 ， 和 Spill 相 关 的 重要 参数 有 三 个 ， 如 表 7-1 所 示 。 


表 7-1 Spill 相关 参数 描述 


参数 名 称 功能 摘 述 
i0.sort.mb Map 输出 的 内 存 绥 冲 区 大 小 ， 默 认 100M 
Map 输出 数据 的 index 和 data 在 io.sortmb 中 占 内 存 的 比例 ， 默 认 是 0.05%， 需 要 根 
i0.sort.record.percent 据 有 具体 数据 的 特点 调整 ，index 的 大 小 固定 为 16 字 节 ， 需 要 根据 data 的 大 小 调整 这 个 比 
例 ， 以 使 io.sort.mb 的 内 存 得 到 充分 利用 
内 存 绥 冲 区 buffer 的 国 伍 ， 默 认 是 0.8， 当 buffer 中 的 数据 达到 这 个 国 值 时 ， 就 触发 
后 台 线 程 司 动 对 buffer 中 已 有 的 数据 进行 排 诛 ， 然 后 写 人 磁盘 


10.Sort.SDI].percent 


要 把 Spill 阶 段 搞 明白 还 要 清楚 三 个 重要 的 数组 结构 : kvoffsets，kvindices，kvbuffer， 这 三 个 数组 就 是 上 一 阶段 Collector 中 的 MapOutputBuffer 类 中 的 数组 ， 也 就 是 真正 在 内 存 中 Map 的 输出 缓冲 
区 。 这 三 个 数组 的 功能 ， 如 表 7-2 所 示 。 


表 7-2 MapOutputBuffer 中 的 数组 缓冲 区 


参数 名 称 功能 描述 


kvoffsets int[] 类 型 ，<key.value> 偏 移 量 数组 ， A 其 在 kvindices 中 的 偏 移 量 
kvindices int[] 类 型 ，<key,value> 键 值 对 索引 ， 就 是 键 信 对 在 kvbuffer 中 的 起 始 位 置 
kvbufter byte[] 类 型 ， 记 录 重 储 数 组 ， 真 正 存 储 <key,value> 键 值 对 的 内 存 绥 冲 区 


很 明显 MapOutputBuffer 中 的 内 人 存 缓冲 区 使 用 了 二 级 索引 结构 。 为 了 对 这 三 个 数组 有 一 个 清晰 、 直 观 的 认识 ， 下 面 举 一 个 例子 说 明 。 假 设 Mapper 处 理 后 写 入 内 存 缓冲 区 的 键 值 对 为 


<nuoline，1，1>，nuoline 为 key， 第 一 个 1 为 value， 第 二 个 1 为 partitioner 分 区 号 ， 那 么 key 的 长 度 为 7，value 长 度 为 1。 在 写 入 记录 <nuoline，1，1> 后 ，Kkvoffsets、kvindices、Kkvbuffer 三 个 数组 的 
数据 示意 图 ， 如 图 7-7 所 示 。 


kvoffsets kvindices kvbuffer 


0 


kvstart 


kvindex 


图 7-7 kvoffsets、kvindices 和 kvbuffet 的 数据 示意 


从 图 7-7 中 可 以 直观 地 看 出 内 存 缓冲 区 中 三 个 数组 中 的 记录 情况 : 在 第 一 个 数组 kvoffsets 中 记录 了 <key，value，partitioner> 在 位 置 索引 数组 kvindices 中 的 偏 移 量 ， 由 图 7-7 可 知 kvoffsets[0]=0， 也 
就 是 记录 <nuoline，1，1> 在 kvindices 中 的 偏 移 量 为 0， 也 就 是 数组 kvindices 下 标 为 0 的 位 置 ; 然后 看 kvindices 数 组 ， 可 以 看 到 kvindices[0]=1( 保 存 的 是 记录 的 partitioner 分 区 号 )、kvindices[1]=0 (保存 
的 是 实际 的 key 在 kvbuffer 的 位 置 ) 、kvindices[2]=7 (保存 的 是 实际 的 value 在 kvbuffer 的 位 置 ) ; 数组 kvbuffer 中 保存 着 实际 的 <key，value> 键 值 对 ， 对 于 这 个 记录 来 说 就 是 <nuoline，1>。 


随 着 Mapper 的 输出 记录 不 断 地 写 入 内 存 缓存 区 的 这 三 个 数组 ， 直 到 解 发 了 Spill 的 条 件 ， 然 后 Spill 阶 段 就 开始 执行 Spill 溢 写 到 磁盘 文件 操作 。 具 体 可 以 触发 Spill 的 条 件 有 以 下 三 个 。 


第 一 个 ，<key，value> 达 到 limit 限 制 ， 源 代码 如 下 : 


kvfull = kvnext == kvstart; 


final boolean kvsoftlimit = ((kvnext > kvend) 
kvnext - kvend > softRecordLimit 
: kvend - kvnext <= kvoffsets.length - softRecordLimit); 
if (kvstart == kvend && kvsoftlimit) { 
LOG.info("Spilling map output: record full = " + kvsoftlimit); 
startSpill (); 


CE 


具体 条 件 ， 如 源 代码 中 的 if(kvstart= =kvend&&kvsoftlimib 条 件 ， 就 是 判断 <key，value> 是 否 达到 limit 大 小 的 限制 ， 如 果 达 到 限制 ， 则 执行 startspil(0 函 数 ， 就 是 开始 Spi 进 程 。 


第 二 个 ， 内 存 缓冲 区 达到 limit 限 ， 也 就 是 kvbuffer 达 到 了 内 人 存 缓冲 区 的 io.sort.spil,percent 比 例 ， 这 个 比例 默认 是 0.8， 也 就 是 默认 达到 80MB， 便 启动 溢 写 磁盘 线程 将 内 人 存 缓冲 区 数据 写 入 磁盘 文件 ， 
这 种 情况 是 通常 意义 上 的 Spill 触 发 条 件 。 


第 三 个 ， 单 条 记录 过 长 ， 如 果 单 条 记录 太 长 是 不 会 写 入 kvbuffer 的 ， 而 是 直接 写 入 磁盘 ， 也 就 是 直接 触发 Spill 操 作 ， 这 时 将 执行 spillSingleRecord。 


spil 的 执行 是 由 SpillThread 类 完成 的 ， 下 面 我 们 分 析 一 下 SpillThread 类 中 run() 函 数 的 主要 处 理 方法 ， 其 相关 核心 代码 如 下 : 


spillThreadRunning = true; 
while (true) { 
spillDone.signal () ， 
while (kvstart == kvend) { 
spillReady.await () ， 


} 
spillLock.unlock(); 

sortAndSpill1();// 执行 Sort 和 Spill，Spill 核 心 函 数 

spillLock.1lock(); 

if (bufend < bufindex && bufindex < pbufstart) { 

bufvoid = kvbuffer.length; 


} 

kvstart = kvend; 

bufstart = bufendgd; 
spillLock.unlock(); 
spillThreadRunning = false; 


从 上 述 代码 中 可 以 看 到 SpillThread 的 主要 流程 就 为 : spillLock.unlockQsortAndSpillQspillLock.lock0。 


最 核心 就 是 在 SpillThread 中 调用 了 sortAndspil(0 来 完成 Spil 操 作 ， 在 Spill 过 程 中 同时 还 根据 partition 分 区 号 对 <key，value> 键 值 对 进行 排序 ， 也 就 是 Map 端 的 Sort 阶段 。 下 面 结合 源 代码 来 分 析 
sortAndspil 的 主要 处 理 流 程 。 


步骤 1 创建 Spill 文 件 ， 核 心 代码 如 下 : 


final SpillRecord spillRec = new SpillRecord(partitions); 
final Path filename = mapOutputFile.getSpillFileForWrite (numSpills, size); 
out = rfs.create (filename); 


首先 是 创建 SpillRecord 记 录 ， 然 后 创建 Spill 文 件 。 


步骤 2 ”按照 partition 的 顺序 对 内 存 缓冲 区 中 的 数据 进行 排序 ， 核 心 代码 如 下 : 


final int endPosition = (kvend > kvstart) 
? kvend 
: kvoffsets.length + kvend; 

sorter.sort (MapOutputBuffer.this, kvstart, endPosition, reporter); 


在 调用 sorter.sort0 遂 数 完成 后 具体 使 用 的 是 快速 排序 算法 ，kvstart 是 排序 的 起 始 地 址 ; endPosition 是 结束 地 址 ; MapOutputBuffer 就 是 内 存 缓冲 区 对 象 。 其 按照 partition 以 key 为 键 进行 排序 。 


步骤 3 ”循环 依次 将 每 个 partition 写 入 磁盘 文件 ， 代 码 如 下 : 


for (int i = 0; i < partitions; ++i) { 
在 循环 中 针对 每 一 个 partition 部 分 ， 根 据 是 否 指 定 了 combiner 执 行 不 同 的 分 支 处 理 。 


分 支 1 如 果 用 户 没有 指定 combiner， 则 直接 写 入 磁盘 文件 ， 代 码 如 下 : 


if (combinerRunner == null) { 

/ 直接 Spill 写 入 文件 
DataInputBuffer key = new DataInputBuftfer () ， 
while (spindex < endPosition && 


kvindices[kvoffsets[spindex %$ kvoffsets.Length ] 
+ PARTITION] == i) { 
final int kvoff = kvoffsets[spindex $ kvoffsets.length]; 
getVBytesForOffset (kvoff, value); 


key.reset (kvbuffer, kvindices[kvoff + KEYSTART], 
(kvindices[kvoff + VALSTART] 一 
kvindices[kvoff + KEYSTART])); 
writer.append (key，value) ;// 追加 写 入 文件 
++spindex; 


分 支 2 ”如果 设置 了 combiner， 则 需要 先进 行 combine 操 作对 同一 partition 中 的 输出 <key，value> 键 值 对 进行 归 约 操作 ， 然 后 写 入 磁盘 文件 ， 其 代码 如 下 : 


if (spstart != spindex) { 

combineCollector. setWriter (writer); 

RawKeyValueIterator kviter = 

new MRResultIterator (spstart, spindex); 
combinerRunner.combine (kvIter, combineCollector);// combine 


上 述 代 码 通 过 调用 combinerRunner.combine 消 数 进 行 对 同一 个 partition 中 键 值 对 进行 归 约 。 
在 这 一 步骤 中 Spill 的 数据 保存 在 spill{spill 号 }.out 格 式 文件 中 。 


步骤 4 创建 spill index 文 件 ， 核 心 代码 如 下 : 


Path indexFilename = 
mapOoutputrFile.getSpillIndexFileForWrite (numSpills, partitions 
* MAP OUTPUT INDEX RECORD LENGTH) ， 
spillRec.writeTorFile (indexFilename, job); 


生成 的 索引 文件 格式 为 spill.out(spill 号 ).index， 例 如 spill.out1.index， 其 对 应 的 就 是 在 内 存 中 的 SpillRecord 对 象 ， 内 容 实质 就 是 kvindices 的 内 容 。 


至 此 Spill 阶 段 的 任务 完成 。 
7.2.6 Merge 阶 段 


经 过 Spill 阶 段 后 会 生成 多 个 spill{spill 号 }.out 文 件 和 相应 的 索引 文件 spill.out(spill 号 ).index，MapTask 最 终 需 要 将 这 些 形式 的 临时 文件 经 过 多 次 合并 成 一 个 大 的 输出 文件 (spill.out 和 spill.out.index 文 


件 ) 。 在 这 个 过 程 中 其 实 有 两 种 情况 : 第 一 种 ，Mapper 只 输出 了 一 个 spi 训 文件 ， 那 么 仅仅 只 需要 修改 文件 名 便 可 以 生成 最 终 文 件 ， 并 不 需要 调用 Merge 类 ; 第 二 种 ，Mapper 的 输出 有 多 个 spill{n} 格 式 的 文 
件 ， 那 么 将 按照 partition 分 区 循环 处 理 所 有 的 文件 。 处 理 partition 的 过 程 中 可 能 还 会 再 次 调用 combineAndSspil， 对 记录 再 做 一 次 Combination 操 作 ， 在 此 过 程 中 会 调用 mergeParts 类 。 


这 两 种 情况 都 统称 为 Mapper 端 的 Merge 阶 段 ， 第 一 种 情况 简单 ， 在 此 就 不 做 详细 分 析 ， 针 对 第 二 种 情况 的 Merge 阶 段 的 示意 图 ， 如 图 7-8 所 示 。 


从 图 7-8 中 可 以 清晰 地 看 出 Merge 阶 段 的 整个 过 程 ， 图 中 假设 有 两 个 Spill 文 件 : spill0.out (相应 的 索引 文件 为 spill0.out.index) 和 spill1.out (相应 的 索引 文件 为 spill1.out.index) ， 这 两 个 文件 在 调用 
mergePart 冰 数 后 最 终生 成 一 个 spill.out 文 件 以 及 相应 的 索引 文件 spill.out.index 文 件 ， 最 终 的 一 个 输入 文件 也 是 按照 partition 排 序 的 ， 在 Reducer 阶 段 将 会 根据 partition 号 获得 相应 的 spill.out 中 的 一 段 数 
据 。 
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图 7-8 ”Merge 阶 段 示意 图 


7.3 ReduceTask 实 现 分 析 


7.2 节 详细 分 析 了 MapTask 在 各 个 阶段 的 实现 机 制 ， 本 节 继 续 分析 ReduceTask 的 实现 。 从 图 7-2 中 可 以 看 到 : ReduceTask 先 被 TaskRunner 调 用 执行 ， 然 后 调用 执行 用 户 的 Reducer 类 从 而 开始 Reduce 
阶段 的 处 理 流程 。 下 面 将 先 从 整体 逻辑 开始 分 析 ， 然 后 详细 分 析 每 个 阶段 。 


7.3.1 ”总 逻辑 分 析 


和 MapTask 类 似 ，ReduceTask 也 继承 了 Task 类 ， 重 写 了 run() 方 法 ，ReduceTask 就 是 通过 调用 run() 方 法 来 执行 Reduce 任 务 的， 总 的 执行 逻辑 图 ， 如 图 7-9 所 示 。 
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图 7-9 ”ReduceTask 总 的 执行 逻辑 图 
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从 图 7-9 中 可 以 看 到 ReduceTask 整 体 的 处 理 逻 辑 ， 首 先是 ReduceTask 的 初始 化 工作 ， 包 括 添加 Reduce 过 程 需要 经 过 的 copy、sort 和 Reduce 阶 段 ， 以 便 通知 JobTracker 目 前 运行 的 情况 ， 设 置 并 启动 
reporter 进 程 以 便 和 JobTracker 进 行 交流 ， 最 后 就 是 进行 一 些 和 任务 输出 相关 的 设置 ， 比 如 创建 commiter， 设 置 工作 目录 等 。 初 始 化 完成 之 后 继续 后 续 流程 ， 和 MapTask 类 似 ，ReduceTask 也 有 三 种 类 型 
的 任务 : CleanupJobTask (清理 任务 ) 、SetupJobTask (初始 化 任务 ， 创 建 工 作 目 录 等 ) 和 TaskCleanupTask (清理 作业 任务 ) ， 这 三 种 类 型 的 作业 会 根据 需要 进行 判断 调用 。 然 后 和 MapTask 不 同 的 
是 要 判断 属性 “mapredjob.tracker” 是 否 为 local， 也 就 是 判断 Hadoop 是 本 地 模式 还 是 分 布 式 模式 ， 如 果 不 是 local 模 式 就 执行 ReduceCopier 对 象 的 fetchOutputs 函 数 ， 也 就 是 copy 阶 段 ， 完 成 copy 阶 段 
之 后 继续 执行 Merge 和 sort 阶段 ， 最 后 判断 用 户 使 用 的 MapReuce API 接 口 ， 根 据 接口 类 型 (新 接口 或 者 旧 接 口 ) 分 别 执行 RunNewReducer 或 RunOldReducer。 


通过 上 述 的 分 析 我 们 可 以 把 ReduceTask 分 为 以 下 四 个 阶段 : 


Shuffle 阶段 ， 这 个 阶段 也 就 是 Reduce 中 的 Copy 阶 段 ， 运 行 Reducer 的 TaskTracker 需 要 从 各 个 Mapper 节 点 远程 复制 属于 自己 处 理 的 一 段 数 据 ， 这 个 过 程 就 称 为 Shuffle 或 Copy。 
Merge 阶段， 由 于 执行 Shuffle 阶 段 时 会 从 各 个 Mapper 节 点 复制 很 多 同一 partition 段 的 数据 ， 因 此 需要 进行 多 次 合并 ， 以 防止 ReduceTask 节 点 上 内 存 使 用 过 多 或 小 文件 过 多 。 
“Sort 阶 段 ， 虽 然 每 个 Mapper 的 输出 是 按照 key 排 序 好 的 ， 但 是 经 过 Shuffle 和 Merge 阶 段 后 并 不 是 统一 有 序 的 ， 因 此 还 需要 在 Reduce 端 进行 多 轮 归并 排序 。 

-Reduce 阶 段 ，Regduce 的 输入 要 求 是 按照 key 排 序 的 ， 因 此 只 有 在 Sort 阶 段 执行 完成 之 后 才 可 以 对 数据 调用 用 户 编写 的 Reduce 类 进行 归 约 处 理 。 


下 面 几 节 将 详细 分 析 这 四 个 阶段 。 


7.3.2 shuffle 阶段 


从 前 面 的 MapTask 分 析 中 知道 : Mapper 的 输出 是 写 入 本 地 磁盘 的 ， 并 且 是 按照 partition 分 区 号 组 织 的 ，Reduce 的 输入 便 是 分 布 在 集群 中 多 个 Mapper 任 务 输出 数据 中 同一 partition 段 的 数据 ，Map 任 
务 可 能 会 在 不 同 的 时 间 内 完成 ， 只 要 其 中 的 一 个 Map 任 务 完成 了 ，ReduceTask 任 务 就 开始 复制 它 的 输出 ， 这 个 阶段 又 称 为 Shuffle 阶 段 或 Copy 阶 段 。Reduce 任 务 拥有 多 个 复制 线程 ， 可 以 并 行 获取 Map 输 
出 。 用 户 可 以 通过 设 定 参 数 mapred.reduce.parallel.copies 来 改变 线程 数 ， 这 个 参数 默认 值 为 5。 


那么 ReduceTask 怎 么 知道 从 哪些 TaskTrackers 中 获取 Mapper 的 输出 呢 ? 它 是 通过 心跳 检测 机 制 完 成 数据 处 理 状态 的 ， 当 Mapper 任 务 完成 之 后 会 通知 TaskTracker， 然 后 TaskTracker 通 过 心跳 机 制 将 
任务 完成 状态 和 结果 数据 传输 给 JobTracker， 在 每 一 个 作业 执行 时 JobTracker 都 会 保存 一 个 Mapper 输 出 和 TaskTrackers 的 映射 关系 表 。Reducer 中 有 一 个 线程 会 间歇 地 向 JobTracker 询 问 Mapper 输 出 的 
地 址 ， 直 到 把 所 有 的 数据 都 取 完 。 在 Reducer 取 走 了 Mapper 输 出 之 后 ，TaskTrackers 并 不 会 立即 删除 这 些 数 据 ， 因 为 Reducer 可 能 会 失败 ， 在 整个 作业 完成 后 JobTracker 告 知 它们 要 删除 的 时 候 才 去 删 
除 。 


上 述 的 Copy 阶 段 是 通过 调用 ReduceCopier 的 fetchOutputs0 消 数 执行 完成 的 ， 代 码 如 下 : 


boolean isLocal = "local".equals (job.get ("mapred.Jjob.tracker", "local")); 
if (!lisLocal) { 
reduceCopier = new ReduceCopier (umbilical, job, reporter); 
if (!reduceCopier.fetchOutputs()) { 


if (reduceCopier.mergeThrowable instanceof FSError) { 
throw (FSError)reduceCopier.mergeThrowable; 
} 


throw new IOException("Task: " + getTaskID() + 
" =- The reduce copier failed", reduceCopier.mergeThrowable); 


从 代码 中 也 可 以 看 出 整个 Copy 阶 段 中 最 核心 的 就 是 ReduceCopier 类 了 ， 这 个 类 实现 了 MRConstants 接 口 ， 主 要 功能 就 是 执行 Copy 阶 段 ， 当 然 还 有 Merge 阶 段 ， 因 为 Copy 和 Merge 基 本 是 同时 执行 
的 ,但 在 逻辑 上 属于 两 个 阶段 。 这 里 主要 分 析 Copy 阶 段 ，Merge 阶 段 将 在 7.3.3 节 进行 分 析 。 


下 面 我 们 分 析 fetchOutputs(0 国 数 ， 该 函数 维护 了 一 个 本 地 的 hashmap 数 据 结构 ( 即 mapLocations 变 量 ) ， 用 来 存储 hostlist<map ids> 的 映射 ， 然 后 启动 MapOutputCopier 线 程 执行 Shuffle， 线 
程 的 数目 是 由 参数 mapred.reduce.parallel.copies 控 制 的， 默认 值 为 95。 核心 代码 如 下 : 


// 启动 所 有 copying 线 程 
for (int i=0; i < numCopiers; i++) { 
MapOutputCopier copier = new MapOutputCopier (conf, reporter, 
reduceTask.getJobTokenSecret () ) ， 
copiers.add (copier); 
copier.start () ， 


在 启动 MapOutputCopier 线 程 后 ，fetchOutput() 就 会 进入 循环 ， 它 会 重复 以 下 步骤 直到 全 部 的 Mapper 输 出 被 复制 且 期 间 无 异常 抛 出 。 
步骤 1 retry 处 理 。 
步骤 2 ”调用 getMapCompletionEvents() 国 数 ， 更 新 fromEventld， 返 回 一 个 Map 完 成 event 的 集合 . 


步骤 3 ”将 包含 Mapper 输 出 的 host list 顺 序 打 乱 ， 防 止 同一 时 间 大 量 Reduce 任 务 访问 TaskTracker。 


呈 


又 4 while 循环 ， 遍 历 hostlist<map ids> 映 射 中 的 每 一 个 MapOutputLocation， 去 掉 obsolete map。 从 每 一 个 host 对 应 的 list 中 取 一 个 填充 uniqueHosts 和 scheduledCopies 两 个 数据 结构 ， 并 将 


填充 的 数目 赋值 给 numlnFlight 和 numScheduled 两 个 变量 。 其 中 obsolete map 用 于 保存 过 期 的 Map 的 attempt id，uniqueHosts 用 于 保存 unique host name，scheduledCopies 用 于 保存 从 每 个 host 选 
取 一 个 Map 输 出 。 


步骤 5 ”如果 numlnFlight 和 numscheduled 两 个 变量 都 等 于 0， 意 味 着 暂时 没有 可 以 用 于 复制 的 Map 输 出 结果 ，fetchOutput(0sleep 5 秒 ， 并 向 TaskTracker 报 告 进度 ， 以 免 误 认为 该 Reduce 任 务 死 掉 
而 将 其 杀 死 。 


J 


步骤 6 ”继续 一 个 循环 ， 循 环 变量 为 numlnFlight， 人 循环 调用 getCopyResult0 ， 此 函数 用 于 获取 MapOutputCopier 线 程 是 否 完成 ， 并 获取 copy 的 结果 。 如 果 getCopyResult 返 回 的 CopyResult 对 象 为 
null， 可 以 向 TaskTracker 取 更 多 的 mapcompletion event， 否 则 则 跳出 当前 循环 ， 继 续 主 循环 。 


步骤 7 ”如 果 getCopyResult(0 返 回 的 CopyResult 对 象 是 一 个 成 功 的 copy， 则 更 新 Shuffle 阶 段 的 相应 状态 参数 ; 如 果 getCopyResult0 返 回 的 CopyResult 对 象 已 经 过 时 (isObsolete( 为 真 的 状态 ) ， 则 
忽略 继续 主 循环 ， 否 则 认为 是 failed， 则 执行 retry 机 制 。 如 果 retry 次 数 超过 最 大 retry 数 目 上 且 满 足以 下 条 件 ， 则 通知 TaskTracker 杀 死 整个 Reduce 任 务 。 条 件 相关 代码 如 下 : 


if ((fetchrailedMaps.size() >= maxFailedUniqueretches || 
fetchFailedMaps.size() == (numMaps - copiedMapOutputs.size())) 
&& lreducerHealthy && (!reducerProgressedEnough || reducerStalled)) 


{ 


LOG.fatal ("Shuffle failed with too many fetch failures "+ 
"and insufficient progress!" 十 
"Killing task " + getTaskID() + ™."); 
umbilical.shuffleError (getTaskID(), 
"Exceeded MAX FAILED UNIQUE FETCHES;" 
+ " bailing-out.", jvmContext); 


步骤 8 ”无论 getCopyResult(0 返 回 的 CopyResult 对 象 的 状态 是 successful、obsolete， 还 是 failed， 都 需要 从 uniqueHosts 中 移 除 当 前 的 host， 并 且 numlnFlight 变 量 执行 自 减 操作 ， 然 后 重新 执行 步骤 
5， 直 到 numlnFlight 为 0。 


至 此 Shuffle 阶 段 完 成 。 
7.3.3 Merge 阶段 


在 Shuffle 阶 段 中 启动 数据 复制 线程 MapOutputCopier 后 就 开始 了 Merge 阶 段 。Merge 包 括 两 种 情况 : 基于 内 存 的 合并 和 基于 磁盘 的 合并 ， 其 分 别 对 应 的 线程 为 InMemFSMergeThread 和 
LocalFSMerger， 代 码 如 下 : 


// 人 磁盘 merge 
localFSMergerThread = new LocalFSMerger ( (LocalFileSystem) localFileSys); 
// 内 存 merger 

inMemF'SMergeThread = new InMemFSMergeThread (); 
localFSMergerThread.start ();} // 启动 磁盘 merge 线 程 


Merge 阶 段 的 示意 图 ， 如 图 7-10 所 示 ，localFSMergerThread 线 程 和 inMemFSMergeThread 线 程 启动 后 就 开始 了 Merge 阶 段 的 执行 ， 如 果 Map 输 出 足够 小 ， 它 们 会 被 复制 到 Reduce TaskTracker 的 
内 存 中 (缓冲 区 的 大 小 由 mapred.job.shuffle.input.buffer.percent 控 制 ， 制 定 了 用 于 此 目的 的 堆 内 存 的 百分比 ) ; 如 果 缓 ; 冲 区 空间 不 足 ， 会 被 复制 到 磁盘 上 。 当 内 存 中 的 缓冲 区 用 量 达 到 一 定 的 阅 值 比例 
(由 mapred.job.shuffle.merge.threshold 控 制 )， 或 者 达到 了 Map 输 出 的 阐 值 大 小 〈 由 mapred.inmem.merge.threshold 控 制 ) ， 缓 冲 区 中 的 数据 将 会 被 归并 ， 然 后 被 Spill 到 磁盘 。 因 此 Merge 阶 段 和 


shffle 阶 段 是 紧密 天 联 的 。 
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图 7-10 ”ReduceTask 的 Merge 阶 段 示 意图 
7.3.4 ”Sort 阶 段 


在 经 过 Shuffle 和 Merge 处 理 之 后 ，ReduceTask 的 输入 数据 以 及 被 复制 到 Reduce 的 运行 节点 还 分 布 在 内 存 或 磁盘 中 ， 并 不 能 直接 作为 Reduce 的 输入 ， 因 为 Reduce 要 求 输入 的 数据 也 是 按照 key 排 序 的 
数据 。 由 于 从 每 一 个 Mapper 复 制 的 输出 数据 是 局 部 排序 的 ， 因 此 在 Merge 的 同时 还 会 经 过 多 次 归并 排序 最 终生 成 整体 按照 key 有 序 的 结果 数据 。 对 于 经 过 压缩 的 Map 输 出 ， 系 统 会 自动 把 它们 解压 到 内 存 
以 方便 对 其 执行 归并 ， 这 个 阶段 会 对 所 有 的 Mapper 输 出 进行 归并 排序 ， 要 重复 多 次 才能 完成 。 


假设 这 里 有 100 个 Mapper 的 输出 (以 及 Shuffle 到 Redcue 端 ， 可 能 部 分 分 布 在 内 存 中 ) ， 归 并 因子 是 10 (由 io.sort.factor 参 数控 制 ， 类 似 于 Map 端 的 Merge 阶 段 )， 那 么 最 终 需 要 10 次 归并 才能 完 
成 。 每 次 归并 会 把 10 个 文件 归并 为 一 个 ， 最 终生 成 10 个 中 间 文 件 。 排 序 后 直接 传输 给 Reduce 函 数 ， 省 去 向 磁盘 写 数据 这 一 步 。 最 终归 并 的 数据 可 以 是 混合 数据 的 形式 ， 既 有 内 存 上 的 也 有 磁盘 上 的 。 由 于 
归并 及 排序 的 目的 是 减少 文件 数目 ， 使 得 在 最 后 一 次 归并 时 总 文件 个 数 达 到 归并 因子 的 数目 ， 因 此 每 次 操作 所 涉及 的 文件 个 数 在 实际 操作 中 会 更 微妙 些 。 比 如 ， 有 40 个 文件 ， 并 不 是 每 次 都 归并 10 个 ， 最 终 
得 到 4 个 文件 ， 相 反 第 一 次 只 归并 4 个 文件 ， 然 后 再 实现 三 次 归并 ， 每 次 10 个 ， 最 终 得 到 4 个 归并 好 的 文件 和 6 个 未 归并 的 文件 。 要 注意 ， 这 种 做 法 并 没有 改变 归并 的 次 数 ， 只 是 最 小 化 写 入 磁盘 的 数据 优化 措 
施 ， 因 为 最 后 一 次 归并 的 数据 总 是 直接 送 到 Reduce() 函 数 中 的 。 


从 上 面 的 分 析 可 知 ， 实 质 上 Shffle，Merge，Sort 阶 段 基本 是 同时 执行 的 ， 因 此 这 三 个 阶段 可 以 认为 是 一 个 大 的 阶段 ， 都 是 为 后 续 的 Reducer 阶 段 服务 的 。 


7.3.5 Reduce 阶段 


Reduce 阶 段 可 以 说 是 ReduceTask 任 务 中 最 重要 的 阶段 ， 因 为 之 前 的 是 几 个 阶段 本 质 上 是 为 Reduce 准 备 数据 的 。 从 7-9 图 中 可 以 看 出 : Reduce 阶 段 是 通过 runNewReducer 或 者 runOldReducer 触 故 
的 。 以 runNewReducet 为 例 进 行 分 析 ， 在 runNewReducer 中 通过 调用 reducer.run(reducerContext) 国 数 来 执行 Redcue， 那 么 具体 调用 哪个 Reducer 类 呢 ? 和 Mapper 类 似 ， 当 用 户 提交 作业 时 使 用 
Job.setReducerClass(ReducerName) 方 法 设置 用 户 的 Reducer 类 ， 在 执行 runNewReducer() 方 法 时 通过 taskContext.getReducerClass( 得 到 用 户 设置 的 Reducer 类 ， 如 果 用 户 没 有 设置 Reducer 类 且 指 定 
的 Reducer 的 数目 又 不 等 于 0， 那 么 Hadoop 将 自动 加 载 系 统 默认 的 Reducer 类 一 一 IdentityReducer。ldentityReducer 为 每 个 输入 键 值 产生 一 个 输出 记录 的 样 例 实现 ， 和 IdentityMapper 类 似 也 就 是 什么 都 
不 做 的 Reducer。 


下 面 进一步 分 析 Reducer， 这 里 同样 结合 源码 进行 解读 ，Reducer 基 类 的 类 图 ， 如 图 7-11 所 示 。 


<KEYIN, VALUEIN,KEY OUT,VALUEOUT 


Reducer 


setup (Reducer<KEYIN,VALUEIN,KEYOUT,VALUEOUT >.Context context) : Void 
reduce (KEYIN key, lterable<V ALUEIN= values, Reducer<KEYIN, VALUEIN.KEYOUT,VALUEOQUT=.Context context) : void 
cleanup (Reducer<KEYIN, VALUEINKEYOUT,VALUEOQUT =.Context context) : Void 
run (Reducer=<KEYIN, VALUEIN,KEYOUT,VALUEOUT >.Context context) : Void 


Reducer::Context 


+ <<Constructor>> Context (Configuration conf, TaskAttemptlD taskid, RawKeyVvaluelterator input, Counter inputKeyCounter, Counter inputValueCounter 


<T,T 2Ti3Tiaa 


ReduceContext_KEYIN_VALUEIN_KEYOUT_VALUEOUT ReduceContext 


用 
本 
一 <<hbind=>= 一 


图 7-11 Reducet 基 类 的 类 图 


从 图 7-11 的 Reducer 基 类 图 中 可 以 看 出 : 有 setup()、reduce()、cleanup0 和 run() 四 个 核心 方法 ， 其 中 setup0 和 cleanup0 方 法 和 Mapper 中 的 类 似 ， 在 此 不 再 歼 述 。 用 户 在 编写 自己 的 Reducer 类 时 至 
少 需 要 重 写 reduce() 方 法 ， 也 就 是 真正 执行 Reduce 操 作 的 运行 立 数 ，run0) 方 法 提供 了 setup0 一 reduce0 一 cleanup() 的 执行 框架 ，Reducer 的 执行 就 是 从 run() 方 法 开始 的 。 我 们 可 以 看 一 下 run(0 的 实现 : 


public void run (Context context) throws IOException, InterruptedException { 
setup (context); 

while (context.nextKey()) { 

reduce (context .getCurrentKey(), context.getValues(), context); 


cleanup (context); 


和 Mapper 类 似 ， 从 代码 中 可 以 看 到 run() 方 法 传 入 了 一 个 Context 对 象 ， 然 后 依次 执行 : setup(context) 一 循环 执行 reduce0 一 cleanup(context)。 
redcue( 通 过 context 对 象 的 nextKey 得 到 要 处 理 的 一 条 记录 ， 然 后 又 通过 context.getCurrentKey0 和 context.getValues() 两 个 函数 获得 当前 记录 的 key 和 value， 然 后 对 相同 key 下 的 所 有 value 依 照 用 


户 的 reduce( 函 数 逻 辑 进 行 归 约 处 理 ， 接 下 来 调用 context 对 象 的 write(K，V) 函 数 进 行 输出 。Reduce 的 输出 是 直接 写 入 HDFS 进 行 持 久 化 存储 的 ， 就 是 用 户 最 终 在 输出 目录 中 看 到 的 part-r* 形 式 的 文件 。 


7.4 JobTracker 分 析 


JobTracker 是 MapReduce 的 Master， 是 Hadoop 中 最 重要 的 后 台 守 护 进程 之 一 ， 由 于 目前 的 架构 还 是 单 Master 设 计 ， 因 此 Hadoop 系 统 中 只 有 一 个 JobTracker， 所 有 的 用 户 作业 都 是 由 它 调度 并 分 配 
给 TaskTracker 来 执行 的 。JobTracker 是 MapReduce 框 架 中 最 核心 的 主 类 之 一 ， 本 节 主 要 讲述 JobTracker 及 其 子 线程 ， 并 且 对 其 运行 机 制 进行 分 析 。 


7.4.1 JobTracker 服 务 分 析 


作为 MapReduce 的 管理 者 ，JobTracker 最 主要 的 功能 就 是 管理 任务 调度 、 管 理 TaskTracker、 监 控 作 业 执行 ， 以 及 运行 作业 容错 机 制 。JobTracker 启 动 后 会 初始 化 若干 个 服务 及 若干 个 内 部 线程 来 维护 
用 户 作 业 的 执行 过 程 和 结果 。 


首先 ， 启 动 一 个 interTrackerServer， 将 端口 配置 为 mapred.job.tracker 绑 定 的 地 址 和 端口 。interTrackerServer 提 供 两 种 用 途 : 


:接收 和 人 处理 TaskTracker 的 heartbeat 等 请 求 ， 必 须 实现 InterTrackerProtocol 接 口 及 协议 。 


-接收 和 处 理 Jobclient 的 请 求 ， 如 submitJob、kil1lJob 等 ， 必 须 实现 JobSubmissionProtocol 接 口 及 协议 。 


其 次 ， 启 动 一 个 infoServer， 运 行 StatusHttpServer， 默 认 监 听 50030 端 口 。StatusHttp-Server 提 供 Web 服 务 ， 用 于 向 用 户 提 供 通过 Web 界 面 查询 job 执行 状况 的 服务 。 
最 后 ， 启 动 5 个 JobTracker 子 线程 ， 各 子 线程 功能 ， 如 表 7-3 所 示 。 
表 7-3 JobTracker 子 线程 功能 
线程 名 称 功能 摘 述 
ExpireLaunchingTasks 用 于 停止 那些 未 在 超时 内 报告 进度 的 Task 
用 于 停止 那些 可 能 已 经 当 掉 的 TaskTracker， 即 长 时 间 未 报告 的 TaskTracker 


ExpireTrackers a 

将 不 会 再 分 配 新 的 Task 
RetireJobs 用 于 清除 那些 已 经 完成 很 长 时 间 还 存在 队列 里 的 作业 
JobInitThread 用 于 初始 化 用 户 作 业 


用 于 调度 Task 的 那些 所 有 与 FileSystem 操作 相关 的 处 理 ， 并 记录 Task 的 状 


TaskCommitQueue 本 短信 自 
AN 《一 一- 
YY 


7.4.2 JobTracker 启 动 分 析 


通过 执行 脚本 start-mapred.sh 就 可 以 启动 MapReduce， 也 就 是 启动 JobTracker 和 Task-Tracker， 而 JobTracker 还 可 以 通过 执行 "$bin"/hadoop-daemon.sh--config$HADOOP _ CONF _DIR start 
jobtracker 来 单独 启动 ， 最 终 JVM 会 通过 java org.apache.hadoop.mapred.JobTracker 命 令 执 行 JobTracker.main0 函 数 ， 在 此 main0 函 数 中 首先 会 调用 JobTracker 静 态 方 法 startTracker()， 然 后 进入 
offerService() 执 行 直到 JobTracker 的 所 有 线程 退出 。JobTracker.java 中 main() 函 数 的 核心 代码 如 下 : 


try { 


if(argv.length == 0) { 
JobTracker tracker = startTracker (new JobConf () ) ， 
tracker.offerService(); 


} 
从 上 述 代码 中 可 以 看 到 主要 就 是 startTracker(0 和 offerService() 两 个 函数 ， 下 面 对 这 两 个 函数 进行 分 析 。 
1.JobTracker.startTracker() 
这 个 函数 是 JobTracker 类 的 静态 函数 ， 在 JobTracker 启 动 时 被 调用 ， 向 调用 者 返回 一 个 JobTracker 对 象 。 该 函数 的 核心 代码 如 下 : 


while (true) { 


try { 
result = new JobTracker (conf, identifier); 
result.taskScheduler.setTaskTrackerManager (result); 
break; 


} 
Thread.sleep (1000); 
f (result != null) { 


JobEndNotifier.startNotifier(); 
MBeans .register ("JobTracker", "JobTrackerIinfo", result); 


FPF-— 


} 


从 上 述 代 码 中 可 以 看 出 主要 有 以 下 两 个 步骤 : 
步骤 1 构造 出 JobTracker 对 象 result， 启 动 两 个 RPC 服 务 ， 并 等 待 JobTracker 退 出 安全 模式 ， 如 果 构 造 出 错 ， 则 睡眠 1 秒 钟 ， 继 续 while 循 环 执 行 步 又 1。 


步骤 2 调用 静态 方法 JobEndNotifier.startNotifier() 创 建 一 个 线程 ， 从 延迟 队列 JobEndNotifier.queue 中 取出 一 个 JobEndstatuslnfo 对 象 ， 然 后 通过 sendNotification(0 调 用 httpNotification() 构 造 一 
个 HttpClient 对 象 执行 相应 的 http 请 求 。 


在 步骤 1 中 一 个 很 重要 的 阶段 就 是 构造 JobTracker 对 象 ， 在 构建 这 个 对 象 的 过 程 中 执行 了 很 多 操作 并 启动 了 很 重要 的 几 种 服务 。 下面 介 绍 构建 JobTracker 对 象 的 主要 步骤 。 


步骤 1 读 取 配置 文件 中 的 mapred.hosts 列 表 (允许 连接 到 JobTracker 的 TaskTracker， 默 认为 空 ， 表 示人 允许 所 有 Task Tracker 节 点 连接 ) ， 读 取 mapred.hosts.exclude 列 表 (禁止 连接 到 JobTracker 
的 TaskTracker 列 表 ， 默 认为 空 ， 没 有 禁止 的 TaskTracker) 。 


步骤 2 配置 并 启动 interTrackerServer (该 服务 提供 JobTracker 和 TaskTracker 交 互 的 服务 ) 。 


步骤 3 ”配置 并 启动 infoServer， 这 个 服务 提供 用 户 跟 踪 JobTracker 上 运行 的 各 种 计算 信息 的 Web 服 务 。 


步骤 4 等待 HDFS 退 出 安全 模式 ， 上 有 具体 过 程 为 : 在 HDFS 上 删除 mapred.system.dir 所 指向 的 目录 ， 然 后 再 创建 该 目录 ， 如 果 出 错 ， 则 认为 平台 处 于 safemode 模 式 ， 睡 眠 10 秒 后 循环 执行 步骤 4。 
步骤 5 ”删除 本 地 的 ${tmapred.local.dirVjobTracker 目 录 。 
步骤 6 将 JobTracker 的 状态 由 State.INITIALIZING 设 置 为 State.RUNNING 状 态 。 


2.JobTracker.offerService() 
这 个 函数 主要 负责 创建 并 启动 5 个 重要 的 线程 及 回收 线程 资源 。 可 以 通过 源 代码 对 这 个 函数 进行 分 析 ， 以 下 就 是 该 国 数 的 核心 代码 。 


while (true) { 
try 1 
recoveryManager .updateRestartCount (); 
break; 
} catch (IOException ioe) { 
Thread.sleep (FS ACCESS RETRY PERIOD); 
} 


} 

taskScheduler.start () ， 

// 启动 调度 之 后 开启 作业 恢复 管理 

try { 
recoveryManager.recover () ; 

} catch (Throwable t) { 

LOG.warn ("Recovery manager crashed! Ignoring.", t); 


} 
// 刷新 节点 列表 
refreshHosts () ， 

this.expireTrackersThread = new Thread (this.expireTrackers, 
"expireTrackers"); 


this.expireTrackersThread.start () ， 
this.retireJobsThread = new Threadq (this.retireJobs, "retireJobs"); 
this.retireJobsThread. start ()，; 
expireLaunchingTaskThread. start () ， 
if (completedJobStatusStore.isActive()) { 

completedJobsStoreThread = new Thread (completedJobStatusStore, 
"completedjobsStore-housekeeper"); 


completedJobsStoreThread.start () ， 
} 
// JobTracker 准 备 好 之 后 便 开启 ijnter-tracker 服 务 
this.interTrackerServer.start () ， 

synchronized (this) { 

state = State.RUNNING; 


一 


} 
LOG.infol("Starting RUNNING");}; 
this.interTrackerServer. join ()， 


从 上 述 代 码 可 以 看 出 : 在 JobTracker.offerService() 函 数 中 主要 启动 了 5 个 进程 : expire-TrackersThread、retireJobsThread、expireLaunchingTaskThread、completedJobsStoreThread、 
interTrackerServer。 最 后 通过 调用 this.interTrackerServer.join() 等 待 所 有 线程 退出 ， 回 收 线程 资源 。 


7.4.3 JobTracker 核 心 子 线程 分 析 


在 上 述 分 析 中 提 到 了 在 启动 JobTracker 守 护 进程 时 会 启动 几 个 子 线程 ， 本 节 对 其 中 的 几 个 核心 子 线程 进行 分 析 。 


1.ExpireTrackers 线 程 


ExpireTrackers 线 程 用 于 停止 超时 的 TaskTracker， 即 长 时 间 未 报告 状态 的 TaskTracker 将 不 会 再 分 配 新 的 Task 任 务 ， 启 动 核心 代码 如 下 : 


this.expireTrackersThread = new Thread (this.expireTrackers,"expireTrackers"); 
this.expireTrackersThread.start () ， 


从 上 述 代 码 中 可 以 看 出 : 启动 了 ExpireTrackersThread 线 程 ， 主 体位 于 expireTrackers.run(0 国 数 中 ， 主 要 执行 步骤 如 下 : 


步骤 1 等 待 10/3x60x1000 毫 秒 ， 核 心 代码 如 下 : 


Thread.sleep (TASKTRACKER EXPIRY INTERVAL / 3) 


步骤 2 进入 while 循 环 ， 从 trackerExpiryQueue 队 列 头 部 取出 TaskTrackerStatus 对 象 赋 给 leastRecent， 判 断 是 否 超 时 ， 核 心 代码 如 下 : 


while ((trackerExpiryQueue.size() > 0) && 
(leastRecent = trackerExpiryQueue.first()) != null && 
( (now - leastRecent.getLastSeen()) > TASKTRACKER EXPIRY INTERVAL)) { 


从 上 述 代码 可 以 看 出 : 超时 判断 是 通过 ((now-leastRecent.getLastSeen()) 来 计算 当前 时 间 与 leastRecent 中 保存 的 lastSeen 时 间 之 差 ， 超 时 时 间 为 10 分 钟 。 


步骤 3 ”如 果 超 时 ， 则 从 trackerExpiryQueue 队 列 中 删除 leastRecent 对 象 ， 然 后 从 taskTrackers 中 取出 与 该 TaskTracker 主 机 名 对 应 的 TaskTrackerstatus 对 象 newProfile， 如 果 newpProfile 中 记录 的 
LastSeen 与 当前 时 间 相 比 仍然 超时 ， 则 认为 该 TaskTracker 死 亡 ， 核 心 代码 如 下 : 


// 从 trackerExpiryQueue 队 列 中 删除 leastRecent 对 象 

trackerExpiryQueue.remove (leastRecent); 

String trackerName leastRecent .getTrackerName (); 
// Figure out if last-seen time should be updated, or if tracker is dead 
TaskTracker current = getTaskTracker (trackerName); 

TaskTrackerStatus newProfile = 
(current == null ) null : current.getstatus (); 


步骤 4 ”如 果 有 超时 的 TaskTracker， 则 调用 removeTracker(current) 和 hostnameToTask-Tracker.get(hostname).remove(trackerName) 完 成 清理 工作 ， 否 则 将 newProfile 重 新 加 到 tracker- 
ExpiryQueue 队 列 中 ， 核 心 代码 如 下 : 


if (newProfile != null) { 
if ((now - newProfile.getLastSeen()) > TASKTRACKER EXPIRY INTERVAL) { 
removeTracker (current);) 
// 移 除 主机 列表 映射 
String hostname = newProfile.getHost (); 
hostnameToTaskTracker.get (hostname) .remove (trackerName); 


} else { 
// 将 newProfile 重 新 加 入 到 trackerExpiryQueue 队 列 
trackerExpiryQueue.add (newProfile); 


上 述 四 个 步骤 整体 介绍 了 线程 ExpireTrackersThread 的 执行 流程 ， 这 个 线程 最 终 是 通过 调用 ExpireTrackers 来 启动 的 ， 从 函数 调用 角度 来 看 主要 的 调用 过 程 示意 图 ， 如 图 7-12 所 示 。 


Expire Trackers.run() JobInProgress. failed Task!() 


JobTracker.markComplete TaskAttempt() 


图 7-12 ”ExpireTrackers 线 程 调用 过 程 示意 图 


从 图 7-12 中 可 以 看 到 ExpireTrackers 线 程 起 始 于 ExpireTrackers.run()， 然 后 主要 调用 执行 了 函数 : 其 中 JobTracker.lostTaskTracker(0 函 数 主 要 用 于 移 除 那 些 被 标记 为 killed 的 任务 ; 
JoblnProgress.failedTask(0) 函 数 用 于 处 理 Failed 的 任务 ， 下 面 对 这 两 个 核心 函数 进行 介绍 。 


(1) JobTracker.lostTaskTracker0 
这 个 函数 在 expireTrackersThread 线 程 中 会 被 调用 执行 ， 除 此 之 外 在 JobTracker.process-Heartbeat() 方 法 中 也 会 被 调用 ， 这 个 函数 的 处 理 流 程 如 下 。 
步骤 1 从 trackerToTaskMap (TreeMap 对 象 ) 中 获取 该 trackerName 对 应 的 TaskTracker 上 所 有 运行 的 taskid 保 存 到 集合 对 象 lostTasks 中 。 


步骤 2 ”从 trackerToTaskMap 了 映射 表 中 删除 该 TaskTracker 的 映射 关系 。 


AN 


步骤 3 ”遍历 步骤 1 得 出 的 lostTasks， 根 据 taskid 从 taskidToTIPMap 对 象 中 获取 对 应 的 TasklnProgress 对 象 tip。 


AN 


步骤 4 如 果 步 骤 3 取 出 的 tip 对 象 为 Map 任 务 或 者 该 任务 尚未 计算 完毕 (由 于 Map 计 算 的 中 间 结 果 保 存在 本 地 ， 非 HDFS 上 ， 因 此 即便 该 Map 任 务 已 经 计算 完毕 可 能 仍 需 重新 计算 ， 如 果 为 Reduce 任 
务 ， 但 没有 执行 完 则 和 Map 任 务 一 样 ， 需 要 重新 计算 ) ， 则 根据 tip 通 过 TasklnProgress.getJob() 获 取 JoblnProgress 对 象 job， 判 断 job 状 态 是 否 为 Jobstatus.RUNNING， 如 果 不 是 则 认为 该 作业 已 经 执行 
完毕 ， 无 需 特殊 操作 ; 否则 调用 JoblnProgress.failedTask(0， 同 时 将 作业 加 到 JobTracker 统 计 出 现 过 失败 的 任务 的 作业 集合 对 象 jobsWithFailures 中 。 


步骤 5 ”如 果 步 骤 3 取 出 的 tip 对 象 为 Reduce 任 务 ， 而 且 已 经 计算 完毕 ， 则 调用 markCompletedTaskAttempt( 将 该 task 标 记 为 稍 后 清理 。 
步骤 6 调用 removeMarkedTasks( 将 该 TraskTracker 从 trackerToMarkedTasksMap 中 删除 。 

(2) JoblnProgress.failedTask() 
failedTask(0 函 数 也 是 在 expireTrackersThread 线 程 调 用 执行 ， 主 要 流程 如 下 : 


步骤 1 调用 TasklnProgress.incompleteSubTask() 将 该 taskid 从 tip 的 activeTasks (TreeMap 对 象 ) 中 移 除 ， 增 加 numTaskFailures 或 numkilledTasks， 如 果 该 任务 失败 次 数 达 到 了 最 大 次 数 则 调用 
TasklnProgress.kill() 将 该 任务 去 除 。 


步骤 2 ”计数 更 新 。 如 果 是 Map 任 务 ， 将 failedMapTasks 加 1， 如 果 该 TasklnProgress 正 处 于 运行 状态 则 将 runningMapTasks 减 1， 如 果 该 任务 已 经 执行 完毕 ， 则 将 finishedqMapTasks 减 1; 如 果 是 
Reduce 任 务 ， 则 将 failedReduceTasks 加 1， 如 果 该 TasklnProgress 正 处 于 运行 状态 则 runningReduceTasks 减 1。 


步骤 3 ”调用 addTrackerTaskFailure()， 在 该 函数 中 将 判断 目前 系统 中 所 有 失败 的 TaskTracker 计 数 flakyTaskTrackers 是 否 已 经 到 达 了 TaskTracker 总 数 的 四 分 之 一 ， 如 果 没 有 达到 ， 则 将 该 
TaskTracker 对 应 的 主机 名 加 到 trackerToFailuresMap 中 (该 Map 对 象 中 保存 主机 名 、 该 主机 对 应 task 的 失败 次 数 ) ， 并 将 失败 计数 加 1， 如 果 该 主机 对 应 的 失败 计数 达到 了 mapred.max.tracker.failures 
指定 的 次 数 (默认 为 4) ， 则 将 flakyTaskTrackers 加 1 (通过 flakyTaskTrackers 防 止 所 有 的 TaskTracker 对 该 作业 都 不 可 用 了 ) 。 


2.initJobs 线 程 


这 个 线程 主要 用 于 用 户 作 业 的 初始 化 ， 核 心 代码 如 下 : 


JobInProgress job = null; 
while (true) { 
Gry 
synchronized (jobInitQueue) { 
while (jobInitQueue.isEmpty()) { 
jobInitQueue.wait (); 
} 


job = jobInitQueue.remove (0) ， 


threadPool .execute (new InitJob (job)); 
} catch (InterruptedException 七 ) { 


break; 
} 


} 
threadPool .shutdownNow () ， 


从 上 述 代码 中 可 以 看 出 主要 流程 就 两 步 : 

步骤 1 如 果 joblnitQueue 队 列 为 空 ， 则 调用 joblnitQueue.wait0 阻 塞 ， 直 到 JobTracker.submitJob(0 调 用 joblnitQueue.notifyAllI0 唤 醒 该 线程 。 

步骤 2 ”从 joblnitQueue 队 列 头 取出 一 个 JoblnProgress 对 象 job， 执 行 InitJob(job) 完 成 该 作业 的 初始 化 。 

在 作业 初始 化 线程 中 还 涉及 两 个 重要 函数 ， 一 个 就 是 JoblnProgress.initTasks(0， 另 一 个 就 是 TasklnProgress.TasklnProgress()， 下 面 对 这 两 个 国 数 进行 分 析 。 

(1) JoblnProgress.initTasks() 

JoblnProgress.initTasks() 国 数 是 JoblnProgress 对 象 的 成 员 函 数 ， 用 于 执行 作业 的 初始 化 ， 从 JoblnProgress 类 中 可 以 看 到 JoblnProgress.initTasks(0 函 数 的 实现 ， 主 要 流程 如 下 : 


步骤 1 如 果 taskslnited 为 真 ， 则 表示 该 作业 已 经 初始 化 需要 立即 退出 ， 确 保 该 作业 只 初始 化 一 次 ， 代 码 如 下 。 


f (tasksInited || isComplete()) { 
return; 


} 


Ee 


步骤 2 ”设置 用 户 作 业 优 先 级 ， 得 到 所 需要 的 作业 安全 密 匙 ， 然 后 通过 create-splitsdobld) 函 数 获 得 文件 分 片 列表 ， 核 心 代 码 如 下 : 


// 设置 作业 优先 级 
setPriority(this.priority); 
// 作业 安全 密 匙 
generateAndStoreTokens () ， 

// 读 取 文件 splits， 以 便 为 每 一 个 split 分 配 一 个 map 任 务 
TaskSplitMetaInfo[] splits = createSplits (jobId) ， 


步骤 3 ”设置 Map 任 务 数 numMapTasks， 并 对 任务 进行 完整 性 检查 ， 同 时 为 每 个 Map 任 务 构造 TasklnProgress 对 象 ， 核 心 代 码 如 下 : 


numMapTasks = splits.length;// 设置 numMapTasks 
// S 完 整 性 检查 
for (TaskSplitMetaInfo split : splits) { 
NetUtils.verifyHostnames (split.getLocations ()); 


} 


maps = new TaskInProgress [numMapTasks]; 
// 为 每 个 map 任 务 构造 TaskInProgress 对 象 
For (int i=0; i < numMapTasks; ++i) { 


inputLength += splits[il].getInputDataLength () ， 
maps[i] = new TaskInProgtress (jobId, jobrFile, 
splits[il, 


jobtracker, conf, this, i, numSlotsPerMap); 


步骤 4 为 每 个 Reduce 任 务 构造 一 个 TasklnProgress 对 象 ， 核 心 代码 如 下 : 


// 创建 redquce 任 务 

this.reduces = new TaskInProgress [numReduceTasks]; 

// 为 每 个 reduce 构 造 一 个 TaskInProgress 对 象 

for (int i = 0; i < numReduceTasks; i++) { 

reduces[i] = new TaskIinProgress (joblId, jobrFile, 
numMapTasks, i, 
jobtracker, conf, this, numSlotsPerReduce); 
nonRunningReduces .add (reduces [i]); 


} 


步骤 5 ”在 调度 之 前 计算 最 小 的 Map 数 目 ， 并 估计 总 共 的 Map 输 出 ， 然 后 创建 两 个 cleanup 类 型 的 TasklnProgress (Map 一 个 ，Reduce 一 个 ) ， 核 心 代码 如 下 : 


// 调度 之 前 计算 最 小 的 map 数 目 

completedMapsForReduceSlowstart = 
(int)Math.ceill( 
(conf .getFloat ("mapred.reduce.slowstart.completed.maps", 

DEFAULT COMPLETED MAPS PERCENT FOR REDUCE SLOWSTART) * 

numMapTasks) ); 


// 估计 总 心 \ \ 共 的 map 输 出 
resourceEstimator.setThreshhold (completedMapsForReduceSlowstart); 
// _c 创 建 两 个 cleanup 类 型 的 TaskInProgress 

Cleanup = new TaskIinProgress[2]; 


需要 注意 的 是 : cleanup 类 型 的 TasklnProgress 并 不 需要 任何 split 分 块 ， 因 此 实际 上 是 传 入 一 个 emptySplit 参 数 
步骤 6 ”剩余 的 主要 流程 就 是 将 jobid、 当 前 时 间 、Map 任 务 数 、Reduce 任 务 数 通过 JobHistory.Joblnfo.loglnited 写 入 日 志 
(2) TasklnProgress() 


TasklnProgress() 函 数 是 TasklnProgress 类 的 成 员 函 数 ， 在 初始 化 线程 中 也 会 被 构造 ， 它 有 两 个 构造 冰 数 ， 根 据 该 task 是 Map 任 务 还 是 Reduce 任 务 调用 不 同 的 构造 函数 并 初始 化 ， 同 时 设置 该 任务 的 最 
大 重 试 次 数 、 局 动 时 间 、 任 务 名 等 。 构 造 函 数 的 接口 代码 如 下 : 


// 用 于 map 任 务 的 构造 函数 

public TaskIinProgress (JobID jobid, String jobFile, 
TaskSplitMetaInfo split, 
JobTracker jobtracker, JobConf conf, 
ee job, int partition, 

nt numSlotsRequired) 


// 用 于 reduce 任 务 的 构造 函数 
public TaskIinProgress (UobID jobid, String jobFile, 

int numMaps, 

int partition, JobTracker jobtracker, 


JobConf conf, 
JobInProgress job, int numSlotsRequired) 


3.expireLaunchingTask 线 程 


这 个 线程 在 JobTracker 构 造 函 数 中 启动 ， 用 于 停止 那些 未 在 超时 时 间 内 报告 进度 的 Tasks 任 务 ， 相 关 核 心 代码 如 下 : 


ExpireLaunchingTasks expireLaunchingTasks = new ExpireLaunchingTasks () ， 
Thread expireLaunchingTaskThread = new Thread (expireLaunchingTasks, 
"expireLaunchingTasks"); 


4.TaskCommitQueue 线 程 


除了 上 述 几 个 主要 的 线程 之 外 ， 还 有 TaskCommitQueue 线 程 ， 这 个 线程 主要 用 于 调度 Task 的 那些 所 有 与 FileSystem 操 作 相 关 的 处 理 ， 并 记录 Task 的 状态 等 信息 ; 还 有 处 理 http 请 求 的 线程 ， 主 要 功能 
是 从 延迟 队列 JobEndNotifier.queue 中 取出 JobEndstatuslnfo 对 象 ， 然 后 通过 sendNotification() 调 用 httpNotification( 构 造 一 个 HttpClient 对 象 执行 相应 的 http 请 求 ， 直 到 将 延迟 队列 所 有 的 
JobEndstatuslnfo 对 象 处 理 完 毕 后 休 眼 。 


7.5 TaskTracker 分 析 


从 架构 上 讲 ，TaskTracker 是 MapReduce 框 架 的 slave 节 点 ， 但 是 它 和 JobTracker 一 样 都 是 最 核心 的 类 之 一 ， 其 运行 在 DataNode 节 点 上 ， 最 主要 的 功能 是 执行 JobTracker 分 发 的 任务 。 这 节 将 对 
TaskTracker 的 启动 以 及 相关 后 台子 线程 进行 分 析 。 


7.5.1 TaskTracker 启 动 分 析 


和 JobTracker 一 样 ，TaskTracker 也 位 于 org.apache.hadoop.mapred 包 下 ， 在 执行 脚本 start-mapred.sh 时 就 会 先 启动 JobTracker， 然 后 是 TaskTracker， 最 终 JVM 会 通过 Java 
org.apache.hadoop.mapred.TaskTracker 调 用 TaskTracker.main() 函 数 来 启动 JobTracker 进 程 ， 在 main() 函 数 中 首先 会 构造 出 JobConf 对 象 ， 以 JobConf 为 参数 构造 出 TaskTracker 对 象 ， 然 后 通 
TaskTracker.run(0 开 始 提供 服务 ， 核 心 代码 如 下 : 


JobConf conf=new JobConf () ; 

// 使 服务 器 跟踪 等 待 时 间 
ReflectionUtils.setContentionTracing 
(conf .getBoolean ("tasktracker.contention.tracking", false)); 
DefaultMetricsSystem.initialize ("TaskTracker") 


AN 


TaskTracker tt = new TaskTracker (conf); // 构造 TaskTracker 对 象 
MBeans .register ("TaskTracker", "TaskTrackerIinfo", tt); 
tt.run(); // 启动 TaskTracker 线 程 


从 上 述 代码 中 可 以 看 到 TaskTracker 的 启动 基本 流程 为 : 


TaskTracker.TaskTracker () ->TaskTracker .run () 
下 面 对 askTracker.TaskTracker(0 和 TaskTrackerrun( 这 两 个 国 数 进行 分 析 。 


1.askTracker.TaskTracker0 构 造 函 数 


askTracker.TaskTracker0 是 TaskTracker 类 的 构造 浮 数 ， 用 于 构造 TaskTracker 类 的 对 象 ， 在 上 述 代 码 中 调用 了 TaskTracker(conf) 舍 参 构 造 函 数 ， 首 先 为 TaskTracker 设 置 JobTracker 地 址 ， 然 后 配置 
并 启动 一 个 StatusHttpServer 对 象 ， 将 服务 绑 定 到 作业 配置 项 tasktracker.http.port 中 指定 的 地 址 (默认 为 0.0.0.0) 和 端口 (默认 为 50060) ， 提 供 Web 服 务 ， 用 于 向 用 户 提 供 Web 界 面 查询 任务 执行 状况 
的 服务 。 最 后 调用 initialize0 完 成 TaskTracker 初 始 化 ，initialize(0) 的 流程 如 下 : 


步骤 1 检查 TaskTracker 本 地 mapred.local.dir 是 否 可 写 ， 删 除 本 地 的 taskTracker 目 录 。 需 要 注意 的 是 ， 在 taskTracker 中 存放 archive 和 jobcache， 而 在 archive 下 存放 着 Discri-butedCache， 在 
jobcache 下 则 存放 作业 的 配置 jobJjar、job.xml， 以 及 作业 在 该 tasktracker 上 执行 的 task 任 务 信息 等 。 


步骤 2 清空 tasks 表 ，tasks 为 Map<string，TasklnProgress> 对 象 ， 构造 用 于 保存 正在 运行 的 任务 列表 runningTasks 和 作业 列表 runningJobs， 核 心 代码 如 下 : 


// 清空 tasks 表 

this.tasks.clear (); 

this.runningTasks = new LinkedHashMap<TaskAttemptID, TaskIinProgress>(); 
this.runningJobs = new TreeMap<JobID, RunningJob>(); 


步骤 3 ”初始 化 该 TaskTracker 的 mapTotal 和 reduceTotal， 将 TaskTracker 的 acceptNew-Tasks 置 为 true， 核 心 代码 如 下 : 


this.mapTotal = 0; 
this.reduceTotal = 0; 
this.acceptNewTasks = true; 
this.status = null; 


mapTotal 和 reduceTotal 的 作用 就 是 添加 新 任务 时 会 增加 Map 或 Reduce 计 数 ， 在 heartbeat 中 检查 任务 状态 ， 如 果 该 任务 为 非 running 状 态 ， 则 减少 计数 ， 设 置 acceptNew-Tasks 为 true 表 示 该 
TaskTracker 可 以 接受 新 任务 了 


步骤 4 设置 probe sample size 为 max(mapred.reduce.parallel.copiesx5，50)， 表 示 最 多 同时 取 Map 任 务 完成 事件 的 个 数 ， 在 代码 中 描述 为 : 


// 调整 probe sample size 的 大 小 
probe sample size = this.fConf.getInt ("mapred.tasktracker.events.batchsize", 500); 


步骤 5 ”启动 一 个 taskReportServer， 用 于 向 MapTask 或 ReduceTask 报 告状 ; 况 。 子 进程 的 启动 命令 实现 在 TaskTracker$Child 类 中 ， 由 TaskRunner.run() 通 过 命令 行 参 数 传 入 该 服务 地 址 和 端口 ， 即 调 
用 TaskTracker 的 getTaskTrackerReportAddress()， 这 个 地 址 会 在 taskReportServer 服 务 创建 时 获得 ， 核 心 代码 如 下 : 


this.taskReportServer = RPC.getServer (this, bindAddress, 
tmpPort, 2 * max false, this.fConf, this.jobTokenSecretManager); 
this.taskReportServer.start () ， 


步骤 6 初始 化 DistributedCache， 并 启动 清理 线程 ， 核 心 代码 如 下 : 


this.distributedCacheManager = new TrackerDistributedCacheManager ( 
this.fConf, taskController); 
this.distributedCacheManager.startCleanupThread () ; 


这 个 阶段 会 删除 本 地 mapred.local.dir/mapred/local/taskTracker/archive 目 录 ， 清 空 该 taskTracker 的 cachedArchives， 并 且 最 终 通 过 调用 mapOutputFile.cleanupStorage() 清 空 本 地 文件 系统 的 
mapred.local.dir/mapred/local/taskTracker 目 录 下 以 前 运行 计算 任务 后 留 下 的 临时 文件 。 


步 又 7 调用 RPC.waitForProxy() 为 该 TaskTracker 初 始 化 jobClient 对 象 ， 将 TaskTrac-ker.running 置 为 true。 需 要 注意 的 是 TaskTracker 有 justlnited、running、shuttingDown 等 多 个 域 来 记录 
TaskTracker 当 前 的 运行 状态 。 其 中 shuttingdown 用 于 记录 显 式 调用 shutdown 的 状态 ， 如 果 当 前 shuttingdown 非 真 ， 而 running 为 false， 则 会 循环 调用 TaskTracker.initialize0 来 重新 初始 化 ， 核 心 代码 
如 下 : 


this.jobClient = (InterTrackerProtocol) 
UserGroupInformation.getLoginUser() .doAs( 
new PrivilegedExceptionAction<Object>() { 
public Object run() throws IOException { 
return RPC.waitForProxy (InterTrackerProtocol.class, 
InterTrackerProtocol .versionID, 
jobTrackAddr, fConf); 


} 
}); 
this.justIinited = true; 
this.running = true;// 设置 runing 为 true 


又 8 初始 化 mapEventsFetcher (MapEventsFetcherThread 线 程 对 象 ) ， 设 置 为 守护 进程 ， 然 后 启动 该 线程 ， 核 心 代码 如 下 : 


呈 


this.mapEventsFetcher = new MapEventsFetcherThread () ; 
mabEventsFetcher .setDaemon (true) // 设置 为 守护 进程 
mapEventsFetcher .SetName ( 

ap-events fetcher for all reduce tasks "+ "on "+ 
taskTrackerName); 

mapEventsFetcher. start (); // 启动 线程 


步骤 9 ”新建 mapLauncher 和 和 reduceLauncher 并 启动 线程 ， 核 心 代码 如 下 : 


mapLauncher = new TaskLauncher (TaskType.MAP, maxMapSlots); 
reduceLauncher = new TaskLauncher (TaskType.REDUCE, maxReduceSlots); 
mapLauncher .start (); 


步骤 10 ”创建 定位 器 ， 开 启 节点 健康 服务 ， 并 启动 监控 jetty Bug 线 程 ， 核 心 代码 如 下 : 


// 创建 定位 器 实例 


setLocalizer (new Localizer (localFs, localStorage.getDirs())); 
// 开启 节点 健康 服务 
if (shouldStartHealthMonitor (this.fConf)) { 


startHealthMonitor (this.fConf); 


} 
// 启动 监控 jetty 线 程 
startJettyBugMonitor () ， 


2.TaskTracker.run(0) 国 数 


TaskTrackerrun(0 是 TaskTracker 的 主线 程 核心 图 数 ， 通 过 调用 TaskTracker.offerservice(0 连 接 JobTracker 并 开始 提供 服务 。 如 果 出 现 网 络 中 断 等 故障 ， 则 等 待 5 秒 ， 然 后 重 试 ， 根 据 异 常 类 型 可 能 还 需 
先 调用 TaskTracker.close() 完 成 清理 ， 在 清理 时 将 TaskTracker.tasks 中 所 有 任务 置 为 失败 ， 关 闭 RPC server， 将 TaskTracker.running 置 为 false， 清 理 本 地 的 Map 计 算 输出 ， 关 闭 取 Map 计 算 结果 的 线程 
mapEventsFetcher 等 ， 清 理 完成 后 调用 initialize() 重 新 初始 化 。 核 心 代码 如 下 : 


while (running && !shuttingDown && !denied) { 
boolean staleStat false; 
try { 
// while 循 环 重新 连接 
while (running && !staleState && !shuttingDown && !denied) { 


try 
State osState = offerService(); // 连接 到 JobTracker 并 开始 提供 服务 
if (osState == State.STALE) { 


staleSstat true; 
} else if (osState == State.DENIED) { 


denied = true; 


} catch (Exception ex) { 
if (!shuttingDown) { 
LOG.info("Lost connection to JobTracker [" + jobTrackAddr + "]. Retryinghttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15128/OF 
try { 
Thread. sleep (5000); // 出 现 网 络 中 断 等 故障 则 等 待 5 秒 
} catch (InterruptedException ie) { 
} 
} 
} 
} 
} finally { 
close () ;执行 清理 工作 


if (shuttingDown) { return; } 
LOG.warn ("Reinitializing local state"); 


initialize(); // 重新 初始 化 


下 面 对 上 述 核心 代码 中 最 关键 的 服务 函数 offerService() 进 行 分 析 ， 其 主要 流程 如 下 : 
步骤 1 计算 上 一 次 心跳 发 送 时 间 与 当前 时 间 之 差 ， 如 果 该 差 值 小 于 10 秒 ， 则 睡眠 到 间隔 时 间 达 到 10 秒 (HEARTBEAT_INTERVAL， 心 跳 间 隔 时间 ) 。 


步骤 2 ”调用 transmitHeartBeat(0 向 JobTracker 发 送 心跳 信号 ， 根 据 该 函数 返回 的 heartbeatResponse 响 应 JobTracker 的 指令 ， 如 果 为 reset 指 令 ， 则 向 TaskTrackerrun() 返 回 State.STALE， 而 在 run() 
中 会 调用 close() 完 成 清理 ， 调 用 initialize( 重 新 初始 化 。 


步骤 3 ”将 lastHeartbeat 置 为 当前 时 间 ， 将 justStarted 置 为 false。 


步骤 4 ”如 果 JobTracker 还 返回 了 其 他 指令 ， 比 如 启动 新 的 计算 任务 ， 则 TaskTracker 调 用 startrNewTask0 发 起 新 的 计算 ; 如 果 返 回 的 指令 为 其 他 任务 ， 则 将 该 任务 添加 到 jtasksToCleanup 队 列 中 以 便 
杀 死 现 有 的 计算 任务 (如 果 不 是 重启 TaskTracker 或 发 起 新 的 计算 任务 ， 则 杀 死 某 个 任务 或 某 个 计算 作业 ，JobTracker 一 共 可 以 返回 4 种 任务 类 型 ,依次 为 LAUNCH_TASK、KILL_TASK、KILL JOB、 
REINIT_ TRACKER) 。 


步骤 5 ”调用 markUnresponsiveTasks(0) 杀 死 过 去 一 段 时 间 内 没有 汇报 计算 结果 的 任务 。 
步骤 6 如果 当 前 磁盘 空间 太 少 ， 则 调用 killoverflowingTasks(0 选 择 作 业 杀 死 释放 空间 。 


步骤 7” 如 果 acceptNewTasks 为 false 目 当前 TaskTracker 处 于 idle 状 态 (通过 TaskTracker.isldle(0 来 判断 ， 如 果 TaskTracker.tasks 队 列 为 空 ， 而 且 TaskTrackertasksToCleanup 队 列 为 空 ， 则 认定 该 
TaskTracker 为 idle 状 态 ) ， 则 将 acceptNewTasks 置 为 true。 


至 此 ，offerService() 函 数 分 析 完 毕 。 
7.5.2 TaskTracker 核 心 子 线程 分 析 

7.5.1 节 对 TaskTracker 后 台 守 护 进程 的 启动 进行 了 详细 分 析 ， 在 启动 TaskTracker 时 也 同时 启动 了 相关 的 核心 子 线程 ， 下 面 对 相关 的 核心 子 线程 进行 分 析 。 
1.MapEventsFetcher 线 程 


这 个 线程 对 象 在 TaskTracker 类 的 Initialize() 国 数 中 进行 构造 ， 然 后 设置 为 守护 线程 并 启动 MapEventsFetcher 线 程 ， 核 心 代 码 如 下 : 


// 启动 mapEventsFetcher 线 程 获取 map 任 务 完成 事件 
this.mapEventsFetcher = new MapEventsFetcherThread(); 
mapEventsFetcher.setDaemon (true); 
mapEventsFetcher. setName ( 

"Map-events fetcher for all reduce tasks "+ "on "+ 
taskTrackerName); 
mapEventsFetcher.start ();// 启动 mapEventsFetcher 线 程 


下 面 对 MapEventsFetcher 线 程 的 执行 流程 进行 分 析 。 


步骤 1 调用 MapEventsFetcherThread.reducesinShuffle()， 通 过 这 个 函数 就 可 以 统计 出 该 TaskTracker 所 运行 的 作业 中 还 处 Reduce 计 算 尚 未 完成 复制 数据 的 阶段 的 任务 状态 列表 并 保存 到 
FetchStatus 列 表 对 象 fList 中 。 


步骤 2 如果 fList 长 度 为 0， 则 调用 runningJobs.wait() 使 线程 睡眠 等 待 ， 直 到 TaskTracker 通 过 addTaskToJob() 调 用 runningJobs.notify() 唤 醒 该 线程 重新 回 到 步骤 1 开始 执行 。 
步骤 3 ”遍历 fList 列 表 ， 通 过 FetchStatus.fetchMapCompletionEvents() 取 出 该 作业 对 应 的 Map 任 务 的 完成 事件 ， 然 后 等 待 5 秒 取 列 表 中 下 一 个 作业 的 Map 任 务 完成 事件 。 


在 上 述 步骤 1 中 最 关键 的 就 是 调用 reducesinShuffle() 函 数 ， 这 个 函数 会 遍历 Task-Tracker.runningJobs 映 射 表 ， 取 出 Jobld( 映 射 表 中 的 key) 和 RunningJob 对 象 (映射 表 中 的 value) ， 如 果 
RunningJob 对 象 对 应 的 任务 是 Reduce 任 务 ， 而 且 该 Reduce 任 务 尚 处 于 Task-Status.Phase.SHUFFLE 阶 段 ， 则 根据 Jobld 和 该 作业 对 应 的 Map 任 务 数 来 构造 FetchStatus 对 象 ， 并 将 作业 任务 状态 加 到 
FetchStatus 列 表 对 象 fList 中 。 


2.taskCleanup 线 程 


taskCleanup 线 程 用 于 将 BlockingQueue 对 象 tasksToCleanup 队 列 中 的 作业 清理 掉 ， 也 是 一 个 守护 线程 。TaskTracker 在 构造 对 象 之 前 先进 行 初始 化 ， 在 初始 化 块 中 会 将 taskCleanup-Thread 设 置 为 
守护 线程 ， 并 局 动 该 线程 ， 核 心 代码 如 下 : 


private void startCleanupThreads() throws IOException 1{ 
taskCleanupThread. setDaemon (true); 
taskCleanupThread. start () 7 

directoryCleanupThread = CleanupQueue.getInstance(); 


} 


线程 首先 从 队列 头 部 获取 TaskTrackerActio，n 即 JobTracker 通 过 心跳 信息 的 回复 中 携带 的 指令 类 型 ， 如 果 指 令 类 型 为 KiljobAction， 则 调用 purgeJob(0 杀 死 该 作业 ; 如 果 指 令 类 型 为 KillTaskAction,， 
则 调用 processKillTaskAction() 杀 死 该 任务 ， 然 后 循环 等 待 ， 代 码 如 下 : 


TaskTrackerAction action = tasksToCleanup.take () ， 
checkJobStatusAndWait (action) ， 
if (action instanceof KillJobAction) { 
purgeJob ( (KillJobAction) action); 

} else if (action instanceof KillTaskAction) { 

processKillTaskAction( (KillTaskAction) action); 

} else { 
LOG.error ("Non-delete action given to cleanup thread: " 


+ action) ， 


从 上 述 代 码 中 可 以 看 到 主要 就 是 根据 心跳 信息 返回 的 指令 类 型 来 分 别 执行 purgejJob(0 杀 死 作 业 或 执行 processKillTaskAction(0 杀 有 死 任务 。 


3.TaskRunner 线 程 
一 个 TaskTracker 上 可 能 有 多 个 TaskRunner 子 线程 ， 封 装 在 TasklnProgress 内 。TaskRunner 分 为 MapTaskRunner 子 线程 和 RedueTaskRunner 子 线程 ， 但 都 通过 抽象 类 Task-Runner.run() 创 建 子 进 


程 在 新 的 JVM 环 境 中 执行 Mapper 或 Reducer， 相 关 代 码 如 下 : 


localizeTask(task);  ”// 初始 化 Task 任 务 
if (this.taskStatus .getRunState () == TaskStatus .State.UNASSIGNED) { 
this.taskStatus .setRunState (TaskStatus .State.RUNNING) ， 


} 


setTaskRunner (task.createRunner (TaskTracker.this, this, rjob)); 
this.runner.start (); // 启动 TaskRunner 子 线程 


在 上 述 代 码 中 ， 通 过 this.runner.start() 启 动 子 线程 ， 最 终 会 调用 TaskRunnerrun() 函 数 在 子 线程 新 建 的 JVM 环 境 中 执行 相应 的 Mapper 或 Reducer 任 务 。 


7.6 心跳 机 制 实 现 分 析 


Hadoop 框 架 中 心跳 检测 机 制 是 一 个 非常 重要 的 系统 ，NameNode 和 DataNode 之 间 ，JobTracker 和 TaskTracker 之 间 正 是 通过 这 种 机 制 进行 通信 的 ， 这 节 将 具体 分 析 心 跳 检测 机 制 的 实现 原理 。 


7.6.1 心跳 检测 分 析 


Hadoop 是 经 典 的 Masteslave 架 构 模式 ，Master 和 slave 之 间 正 是 通过 一 个 周期 性 的 信号 进行 通信 的 ， 类 似 人 类 的 心跳 和 脉搏 一 样 ， 这 种 信号 就 是 所 谓 的 “心跳 ”， 心 跳 检 测 机 制 示意 图 ， 如 图 7-13 


所 示 。 
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图 7-13 ”心跳 检测 机 制 示意 图 


如 图 7-13 所 示 ， 在 Hadoop 的 Master 启 动 的 时 候 会 开启 一 个 IPC Server 以 等 待 Slave 的 心跳 数据 包 ，Slave 启 动 时 会 主动 连接 Master， 并 周期 性 地 每 隔 3 秒 向 Master 主 动 发 送 一 个 心跳 包 ， 当 然 这 个 周期 


的 时 间 间 隔 是 可 以 通过 heartbeat.recheck.interval 属 性 参数 来 设置 的 ，Slave 通 过 这 个 心跳 包 将 自己 的 状态 告诉 Master， 然 后 Master 表 通过 心跳 包 的 返回 值 向 Slave 节 点 传送 执行 指令 ， 整 个 过 程 就 是 


Hadoop 的 心跳 检测 机 制 。 


需要 注意 的 是 : HDFS 的 NameNode 和 DataNode 之 间 ， 以 及 MapReduce 中 的 JobTracker 和 TaskTracker 之 间 都 是 通过 这 种 心跳 机 制 来 相互 沟通 的 ， 本 节 通 过 分 析 MapReduce 中 的 心跳 来 详细 描述 其 


实现 机 制 。 


下 面 将 通过 几 个 小 节 的 内 容 来 分 析 心 跳 机 制 实 现 过 程 所 涉及 的 重要 函数 。 


7.6.2 TaskTracker.transmitHeartBeat() 


个 国 数 用 于 建立 并 发 送 心跳 信息 给 JobTracker， 在 TaskTracker.offerService() 中 每 隔 10 秒 调用 一 次 ， 该 函数 的 接口 如 下 : 


这 人 


HeartbeatResponse transmitHeartBeat (long now) 


下 面 介 绍 transmitHeartBeat() 的 主要 执行 流程 。 


步骤 1 如 果 上 一 次 的 心跳 信息 已 经 处 理 完毕 ， 则 构造 一 个 新 的 TaskTrackerStatus 对 象 记录 当前 任务 的 执行 状态 ， 核 心 代码 如 下 : 


JU 一 


if (Status == null) { 
synchronized (this) { 
status = new TaskTrackerStatus (taskTrackerName, 


localHostname, httpPort, 
cloneAndResetRunningTaskStatuses (sendCounters), 
failures, 

maxMapSlots, 

maxReduceSlots);} 


} 
} 


步骤 2 检查 是 否 需 要 向 JobTracker 要 新 的 计算 任务 ， 核 心 代码 如 下 : 


// 判断 是 否 需要 新 的 计算 任务 
boolean askForNewTask; 
long localMinSpacestart; 
synchronized (this) { 

askForNewTask = 

((status.countOccupiedMapSlots() < maxMapSlots || 
status.countOccupiedReduceSlots() < maxReduceSlots) && 
acceptNewTasks); 

JocalMinSpaceStart = minSpaceStart; 


} 


从 上 述 代码 可 以 看 到 : 如 果 当 前 的 Map 任 务 数 或 Reduce 任 务 数 小 于 该 TaskTracker 人 允许 执行 的 最 大 槽 位 数 maxMapSlots 和 maxReduceSlots， 并 且 当 前 TaskTracker 的 acceptNewTasks 为 真 ， 则 将 
askForNewTask 置 为 真 ， 表 示 该 TaskTracker 需 要 向 JobTracker 要 新 的 计算 任务 。 


步骤 3 ”如 果 步 又 2 的 结果 askForNewTask 为 真 ， 则 检查 本 地 mapred.local.dir 是 否 有 足够 的 空间 (在 属性 mapred.local.dir.minspacestart 中 配置 的 最 小 空间 ) ， 根 据 结果 重新 设置 askForNewTask， 
然后 增加 节点 健康 信息 ， 核 心 代码 如 下 : 


上 


f (askForNewTask) { 
askForNewTask = = enoughFreeSpace (localMinSpaceStart); 
ong freeDiskSpace = getFreeSpace(); 
long totVmem = getTotalVirtualMemoryOnTT () ， 
Jong totPmem = getTotalPhysicalMemoryOnTT (); 


status.getResourceStatus () .setCpuFrequency (cpuFreq); 
status.getResourceStatus () .setNumProcessors (numCpu); 
status.getResourceStatus () .setCpuUsage (cpuUsage); 


} 


TaskTrackerHealthSsStatus healthSstatus = status.getHealthSstatus () ， 


步骤 4 ”通过 RPC 接 口 调用 JobTracker 的 heartbeat0 处 理 心跳 消息 ， 代 码 如 下 : 


HeartbeatResponse heartbeatResponse = jobClient.heartbeat (status, 
justSstarteqd, 
justInited, 
askForNewTask, 
heartbeatResponselId); 


步骤 5 遍历 TaskTrackerStatus 中 的 taskReports 队 列 ， 如 果 该 任务 的 状态 非 TaskStatus.State.RUNNING， 则 根据 是 Map 任 务 还 是 Reduce 任 务 将 mapTotal 或 reduceTotal 减 1， 并 将 该 任务 从 
TaskTracker.runningTasks 了 映射 表 中 移 除 ， 核 心 代码 如 下 : 


for (TaskStatus taskStatus : status.getTaskReports()) { 
if (taskStatus.getRunState() != TaskStatus .State.RUNNING && 
taskStatus.getRunState() != TaskStatus.State.UNASSIGNED && 
taskStatus.getRunState() != TaskStatus.State.COMMIT PENDING && 
!taskStatus.inTaskCleanupPhase()) { 
if (taskStatus.getIsMap()) { 
mapTotal-——; // map 总 数 减 1 
} else { 
reduceTotal-——; // reduce 总 数 减 1 
} 
mylInstrumentation.completeTask (taskStatus.getTaskID 


runningTasks.remove (taskStatus.getTaskID()); 7 从 可 大 表 移 除 
} 
} 


步骤 6 ”遍历 runningTasks 队 列 ， 通 过 TaskSstatus.clearstatus() 将 每 个 计算 任务 的 用 于 向 JobTracker 汇 报 的 状态 信息 清空 ， 核 心 代 码 如 下 : 


// 清除 向 JobTracker 汇 报 的 状态 信息 清空 ， 只 向 JopTrackezr 发 送 一 次 
for (TaskInProgress tip: runningTasks.values()) { 
tip.getSstatus () .clearstatus () ， 


最 后 该 函数 返回 一 个 heartbeatResponse 对 象 。 
7.6.3 JobTracker.heartbeat() 


在 心跳 实现 中 ， 最 重要 的 一 个 函数 就 是 JobTracker 类 的 heartbeat0 函 数 ， 在 TaskTracker 中 会 传 入 4 个 参数 来 调用 heartbeat0 函 数 ， 该 函数 接口 如 下 : 


HeartbeatResponse heartbeat (TaskTrackerStatus status, 
boolean initialContact, 

boolean acceptNewTasks, 

Short responselId) 


其 参数 意义 ， 如 表 7-4 所 示 。 


表 7-4 heattbeat0 函数 的 参数 意义 


线程 名 称 功能 
TaskTrackerStatus 类 型 ， 包 加 全 『 TaskTracker 名 、 主 机 地 址 、http 端口 、JobTracker 


status 

上 一 次 收 到 该 TaskTracker 心跳 的 时 间 (lastSeen) 等 信息 
initialContact 表示 TaskTracker = 全 为 第 一 次 问 JobTracker 发 -一 一 吕 
acceptNewTasks 表示 TaskTracker 是 否 可 以 回 JobTracker 要 新 的 计算 任 3 


responseld 用 于 判断 心跳 TT 应 丰 是 否 丢 失 参 数 


在 表 7-4 中 详细 描述 了 心跳 函数 heartbeat0 中 的 4 个 参数 意义 ， 其 中 最 后 一 个 参数 responseld 在 TaskTracker 中 初始 值 为 -1， 然 后 由 JobTracker 将 期 待 TaskTracker 收 到 的 下 一 个 心跳 计数 +1， 将 
responseld 保 存在 HeartbeatResponse 中 返回 给 TaskTracker，TaskTracker 在 发 送 心跳 信号 时 以 该 参数 调用 JobTracker 的 heartbeat() 方 法 ，JobTracker 就 可 以 比较 本 地 期 待 收 到 的 responseld 与 实际 收 到 
的 responseld 来 判断 上 一 个 响应 包 是 否 丢 失 ， 如 果 丢 失 则 重 帮 上 一 个 响应 包 。 通 过 responseld 就 实现 了 JobTracker 与 TaskTracker 之 间 的 两 次 握手 。 


该 函数 由 TaskTracker.transmitHeartbeat0) 通 过 rpc 方 式 调用 ， 主 要 流程 如 下 : 


步骤 1 通过 acceptTaskTracker(status) 函 数 检查 发 送 心跳 信息 的 TaskTracker 是 否 为 允许 连接 JobTracker 的 TaskTracker， 核 心 代码 如 下 : 


// 保证 来 自 TaskTrackez 的 心跳 信息 允许 连接 到 JobTracker 
if (lacceptTaskTracker (status)) { 
throw new DisallowedTaskTrackerException (status); 


步骤 2 从 trackerToHeartbeatResponseMap 取 出 该 TaskTracker 对 应 的 上 一 次 的 Heartbeat-Response 对 象 prevHeartbeatResponse， 代 码 如 下 : 


String trackerName = status.getTrackerName (); 
long now = clock.getTime () ， 


HeartbeatResponse prevHeartbeatResponse = 
trackerToHeartbeatResponseMap.get (trackerName); 


在 上 述 代码 中 ，trackerToHeartbeatResponseMap 就 是 建立 了 TrackerName 与 上 一 次 发 送 的 HeartbeatResponse 之 间 映 射 关 系 的 Map 对 象 。 


步骤 3 ”如 果 发 送 心跳 信号 的 TaskTracker 非 第 一 次 与 JobTracker 联 系 ( 即 initialContact 参 数 非 真 ) ， 同 时 在 步骤 2 中 取出 的 prevHeartbeatResponse 为 空 ， 则 JobTracker 需 要 通知 TaskTracker 重 新 初 
始 化 (JobTracker 重 启 时 会 出 现 这 种 情况 ) ; 如 果 从 prevHeartbeatResponse 中 取出 的 responseld 与 TaskTrackerm 心 跳 中 携带 的 responseld 不 一 致 ， 意 味 着 收 到 了 TaskTracker 重 复 的 心跳 信号 ， 可 能 是 
JobTracker 发 送 给 TaskTracker 的 上 一 次 心跳 响应 包 丢 失 ， 则 JobTracker 直 接 以 prevHeartbeatResponse 响 应 TaskTracker 的 本 次 心跳 请 求 ， 核 心 代 码 如 下 : 


// 如 果 TaskTracker 非 第 一 次 与 JobTracker 联 系 
if (initialContact != true) { 
// 同时 ， 如 果 prevHeartbeatRespons 
if (prevHeartbeatResponse == null) 
/7 Do se hk 
二 下 { 
addRestartIn true; 
// 通知 恢复 管理 器 


recoveryManager.unMarkTracker (trackerName); 
else { 
// Jobtracker 可 能 已 经 重启 


2 


return new HeartbeatResponse (responselId, 
new TaskTrackerAction[] {new ReinitTrackerAction()}); 


} 
} else { 
f (PrevHeartbeatResponse .getResponseId() != responsel1d) { 


Es 


return prevHeartbeatResponse; 
// prevHeartbeatResponse 响 应 TaskTracker 的 本 次 心跳 请 求 


步骤 4 ”将 responseld 累 加 保存 在 newResponseld 局 部 变量 中 ， 然 后 调用 JobTracker.processHeartbeat0 处 理 来 自 TaskTracker 的 心跳 消息 ， 核 心 代码 如 下 : 


Short newResponseld = (Short) (responselId + 1); 
status. setLastSeen (now); 

// 处 理 来 自 TaskTracker 的 心跳 消息 
if (lIprocessHeartbeat (status, initialContact, now)) { 


if (prevHeartbeatResponse != null) 1 
trackerToHeartbeatResponseMap.remove (trackerName); 


} 
return new HeartbeatResponse (newResponseId，, 
new TaskTrackerAction[] {new ReinitTrackerAction() }); 


} 


步骤 5 ”以 步骤 4 中 的 newResponseld 构 造 JobTracker， 用 来 响应 本 次 心跳 消息 的 HeartbeatResponse 对 象 response， 实 现代 码 如 下 。 


HeartbeatResponse response = new HeartbeatResponse (newResponselId, null); 


步骤 6 检查 要 在 TaskTracker 上 执行 的 新 任务 ， 如 果 参 数 acceptNewTasks 为 真 ， 则 调用 getNewTaskForTaskTracker() 为 该 TaskTracker 分 配 新 的 计算 任务 ， 并 加 到 指令 列表 actions 中 。 


步骤 7 调用 getTasksToKill0 检 查 该 TaskTracker 是 否 有 需要 杀 死 的 计算 任务 ， 如 果 有 ， 则 将 其 加 到 指令 列表 actions 中 ， 实 现代 码 如 下 : 


// 检查 要 杀 死 的 任务 


List<TaskTrackerAction> killTasksList = getTasksToKill (trackerName); 
if (killTasksList != null) { 
actions .adqqA11 (killTasksList); // 加 到 指令 列表 actions 中 


步骤 8 调用 getJobsForCleanup0 检 查 该 TaskTracker 是 否 有 需要 杀 死 或 清理 的 作业 ， 如 果 有 ， 则 将 其 加 到 指令 列表 actions 中 ， 然 后 调用 getTasksToSave0) 检 查 是 否 有 要 保存 输出 的 任务 ， 如 果 有 ,， 也 
加 入 指令 列表 actions 中 ， 实 现代 码 如 下 : 


// 检查 是 否 有 需要 杀 死 或 者 清理 的 作业 

List<TaskTrackerAction> killJobsList = getJobsForCleanup (trackerName); 
if (killJobsList != null) { 
actions .aqqA11 (killJobsList); 


} 
// 检查 是 否 有 要 保存 输出 的 任务 
List<TaskTrackerAction> commitTasksList = getTasksToSave (status); 
if (commitTasksList != null) { 
actions.addAll (commitTasksList); 


} 


步骤 9 ”将 指令 列表 保存 到 心跳 响应 response 中 ， 并 在 trackerToHeartbeatResponseMap 中 建立 该 TakTracker 的 主机 名 与 response 的 映射 关系 ， 然 后 调用 removeMarkedTasks(0 从 
trackerToMarkedTasksMap 映 射 表 中 删除 在 该 TaskTracker 中 已 经 完成 的 计算 任务 所 对 应 的 映射 关系 ,核心 代码 如 下 : 


// 更 新 trackerToHeartbeatResponseMap 了 映射 
trackerToHeartbeatResponseMap.put (trackerName, response); 
// 处 理 完 心跳 了 ,现在 移 除 任务 


removeMarkedTasks (trackerName);} 


最 后 向 TaskTracker 返 回 response 对 象 。 


7.6.4 JobTracker.processHeartbeat() 


JobTracker.processHeartbeat() 国 数 的 功能 是 处 理 来 自 TaskTracker 的 心跳 消息 ， 它 在 JobTracker.heartbeat( 中 调用 ， 主 要 处 理 流 程 如 下 : 
步骤 1 更 新 TaskTrackerStatus 中 lastSeen 为 当前 时 间 。 变 量 lastSeen 记 录 了 上 次 JobTracker 收 到 TaskTracker 发 送 心跳 消息 的 时 间 。 


步骤 2 调用 updateTaskTrackerStatus() 更 新 TaskTracker 的 状态 ， 代 码 实现 如 下 : 


boolean seenBefore = updateTaskTrackerStatus (trackerName, 
trackerStatus); 


上 述 代码 返回 的 boolean 值 表示 该 TaskTracker 是 否 在 JobTracker 的 taskTrackers 映 射 表 中 有 记录 。 


步骤 3 ”如 果 传 入 的 参数 initialContact 为 真 ( 即 TaskTracker 初 次 与 JobTracker 联 系 ) ， 但 步骤 2 中 的 返回 为 真 ， 则 JobTracker 需 要 调用 lostTaskTracker() 来 完成 清理 ， 核 心 代码 如 下 : 


f (initialContact) { 
// 如 果 第 一 次 和 JobTracker 联 系 执行 清理 
if (seenBefore) { 
lostTaskTracker (taskTracker); 


} 


P- 
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} 


在 上 述 代码 中 ， 参 数 initialContact 由 JobTracker.heartbeat( 传 入 ， 参 数 seenBefore 之 前 在 JobTracker 中 就 已 经 有 记录 ， 可 以 认为 是 已 经 注册 过 了 的 TaskTracker 又 向 JobTracker 发 送 消息 告知 第 一 次 
连接 ， 当 TaskTracker 重 启 时 会 出 现 这 种 情况 。 


步骤 4 如 果 initialContact 为 false， 同 时 步骤 2 的 返回 值 seenBefore 为 false， 则 调用 updateTaskTrackerSstatus() 清 理 步骤 2 添加 的 记录 ， 核 心 代码 如 下 : 


else {// 如 果 initialContact 为 false 
// 如 果 非 第 一 次 联系 ， 则 tracker 有 记录 
if (!seenBefore) { 
LOG.warn ("Status from unknown Tracker : " + trackerName); 
updateTaskTrackerStatus (trackerName, null); 
return false; 


注意 的 是 seenBefore 为 false 在 TaskTracker 响 应 超时 或 网 络 故障 超时 等 情景 下 会 出 现 这 种 情况 。 


步骤 5 ”如 果 initialContact 为 真 ， 则 在 trackerExpiryQueue 队 列 中 添加 该 TaskTracker 的 状态 信息 ， 代 码 如 下 : 


if (isBlacklisted(trackerName)) { // 在 黑 名 单列 表 中 
faultyTrackers.incrBlacklistedTrackers (1);，; 


| 
addNewTracker (taskTracker); // 添加 该 TaskTracker 的 状态 信息 


pe 


步骤 6 调用 updateTaskStatuses() 更 新 该 TaskTracker 上 所 运行 的 所 有 计算 任务 ， 代 码 如 下 : 


updateTaskStatuses (trackerStatus) ; // 更 新 任务 状态 信息 
UpdateNodeHealthStatus (trackerStatus, timeStamp); pA 更 新 节点 健康 状态 信息 


国 数 updateTaskSstatuses() 是 在 processHeartbeat( 函 数 中 最 后 一 步调 用 的 ， 这 个 函数 从 传 入 的 TaskTrackerStatus 参 数 中 取出 TaskSstatus 列 表 ， 遍 历 该 列表 ， 取 出 TaskSstatus 对 象 report， 根 据 report 
获得 对 应 的 Taskld， 然 后 根据 Taskld 从 JobTracker 的 taskidToTIPMap 映 射 表 中 取出 对 应 的 TasklnProgress 对 象 tip， 在 expireLaunchingTasks 线 程 的 launchingTasks 映 射 表 (建立 了 Taskld 与 汇报 时 间 的 
对 应 关系 ) 中 删除 为 该 Taskld 建 立 的 映射 ， 然 后 获取 该 TasklnProgress 对 应 的 JoblnProgress， 并 调用 JoblnProgress.updateTaskStatus() 更 新 该 作业 的 进度 信息 。 


7.7 ”作业 创建 分 析 


作业 的 创建 主要 由 JobClient 类 负责 完成 。JobClient 也 是 用 户 作业 和 JobTracker 交 互 的 重要 接口 ， 可 以 用 来 提交 作业 、 跟 踪 作 业 的 状态 、 访 问 子 任务 的 报告 、 日 志 等 、 获 取 MapReduce 集 群 状 态 信息 


JobClient 在 创建 作业 时 执行 的 主要 操作 包括 : 检查 输入 /输出 的 有 效 性 ， 计 算 作业 的 Splits， 复 制作 业 的 Jar 包 和 配置 文件 到 HDFS 的 mapred 系 统 目 录 ， 最 后 提交 作业 给 JobTracker 并 跟踪 作业 执行 状 
态 。 整 个 作业 的 创建 将 在 JobClient.runJob(0 函 数 中 执行 ， 其 核心 代码 如 下 : 


JobClient jc = new JobClient (job); // 创建 JobClient 对 象 
RunningJob rj = jc.submitJob (job); // 提交 作业 到 JobTracker 
try { 
if (!jc.monitorAndPrintJob (job, rj)) { // 监控 跟踪 作 ， 
LOG.info("Job Failed: " + rj.getFailureInfo()); 
throw new IOException ("Job failed!"); 


} 
} catch (InterruptedException ie) { 
Thread.currentThread() .interrupt () ， 


} 


return rj; 


从 上 述 代码 中 可 以 看 到 作业 创建 的 主要 流程 如 下 : 
步骤 1 首先 根据 传 入 的 JobConf 参 数 构造 JobClient 对 象 ， 在 JobClient 的 构造 函数 中 会 调用 JobClient 的 init 方 法 ， 通 过 JobClient.init0 连 接 到 JobTracker。 
步骤 2 ”调用 JobClient.submitUob() 向 JobTracker 提 交 作 业 ， 根 据 返 回 的 RunningjJob 接 口 每 隔 1 秒 钟 检查 一 次 作业 的 状态 ， 如 果 执 行 完毕 ， 则 退出 跟踪 ; 如 果 出 错 ， 则 杀 死 该 作业 。 


下 面 将 对 这 两 个 步骤 进行 分 析 。 


7.7.1 初始 化 分 析 


作业 的 初始 化 通过 在 JobClient.runJob(0 国 数 中 调用 JobClient.init0 孙 数 完成 执行 。 这 里 就 对 JobClient.init0 进 行 分 析 ，init(0 国 数 的 核心 代码 如 下 : 


public void init (JobConf conf) throws IOException { 
// 步骤 1 
String tracker = conf.get ("mapred.job.tracker", vocal™)s 
tasklogtimeout = conf.getIint( 
TASKLOG PULL TIMEOUT KEY, DEFAULT TASKLOG TIMEOUT); 


this.ugi = UserGroupInformation.getCurrentUser () ; 
// 步 又 2 
if ("Jocal".equals (tracker)) { 
conf.setNumMapTasks (1); 
this.jobSubmitClient = new LocalJobRunner (conf); 
} else {// 步 又 3 
this.jobSubmitClient = createRPCProxy (JobTracker.getAddress (conf), conf); 


} 
} 


分 析 上 述 代码 可 知 ， 作 业 的 初始 化 主要 有 以 下 三 个 步 又 : 
步骤 1 从 配置 文件 读 取 mapred.job.tracker， 判 断 是 否 为 本 地 执行 的 任务 ， 初 始 化 JobClient 的 JobsubmitClient 域 。 


又 2 如果 是 本 地 任务 ， 则 调用 LocalJobRunner 初 始 化 。 


引 


咎 


又 3 ”如 果 非 本 地 任务 ， 则 使 用 RPC 机 制 来 构造 一 个 JobSubmissionProtocol 接 口 的 代理 ， 即 调用 JobTracker.getAddress(conf) 获 得 JobTracker 地 址 ， 表 通过 JobConf 参 数 调用 createProxy 方 法 初始 
化 JobSubmitClient。 


至 此 作业 初始 化 完成 。 
7.7.2 “作业 提交 分 析 


作业 的 提交 是 通过 在 JobClient.runJob(0 遂 数 中 调用 JobClient.submitJob() 遂 数 完 成 的 。 最 终 通 过 调用 JobClient.submitJoblnternal0 遂 数 提交 作业 到 JobTracker， 该 函数 返回 NetworkedjJob 的 
RunningJob 对 象 用 于 跟踪 作业 ， 主 要 执行 流程 如 下 : 


步骤 1 通过 jobSubmitClient.getNewjJobld0 获 取 作 业 名 ， 在 JobTracker 和 LocalJobRunner 中 实现 了 该 方法 ， 代 码 如 下 : 


JUJobID jobId = jobSubmitClient .getNewJobId(); 


如 果 JobTracker 通 过 LocaJobRunner 的 getNewJobld 方 法 获取 Jobld， 则 返回 类 似 于 job local “jobid” 的 格式 (jobid 从 1 开始 ) ; 如 果 JobTracker 是 非 local， 则 返回 类 似 于 
job timestamp_ “jobid” 格式 ， 其 中 timestamp 字 段 通过 Date 取 得 日 期 并 格式 化 为 yyyymmddHHMM 格 式 ，jobid 从 0001 开 始 ， 在 运行 过 程 中 累加 ， 重 启 jobtracker 会 重新 从 0001 开 始 计数 。 


步骤 2 ”获得 作业 提交 目录 submitJobDir， 并 设置 参数 mapreduce.job.dir 的 值 ， 代 码 如 下 : 


Path submitJobDir = new Path (jobStagingArea, joblId.toSstring()); 
jobCopy.set ("mapreduce.job.dir", submitJobDir.toString()); 


步骤 3 ”获取 Job 的 分 布 式 缓存 路 径 ， 包 括 分 布 式 缓存 文件 路 径 、 分 布 式 存 档 路 径 、 分 布 式 缓存 libjars 路 径 ， 并 复制 资源 文件 ， 相 关 核 心 代码 如 下 : 


// 获取 Job 的 分 布 式 缓存 

populateTokenCache (jobCopy, ,jobCopy.getCredentials ()); 
// 复制 资源 文件 到 JobTracker 的 资源 中 转 目 录 中 
copyAndConfigureFiles (jobCopy, submitJobDir); 


步骤 4 ”获取 作业 配置 文件 目录 ， 获 取 Reduce 数 目 ， 以 及 本 机 iP 地址 ， 并 根据 Reduce 数 目 是 否 为 零 来 检查 输入 \ 输 出 设置 ， 核 心 代码 如 下 : 


// 获取 配置 文件 目录 


Path submitJobFile = JobSubmissionFiles.getJobConfPath (submitJobDir); 
int reduces = jobCopy.getNumReduceTasks (); // 获取 Reduce 数 目 
InetAddress :ip = InetAddress.getLocalHost (); // 获取 本 机 IP 地 址 


f (ip != null) { 
job.setJobSubmitHostAddress (ip.getHostAddress ()); // IP 地 址 
job.setJobSubmitHostName (ip.getHostName () ) ; // 主机 名 


pH 


步骤 5 为 用 户 作 业 创建 Split 输 入 分 区 ， 核 心 代 码 如 下 : 


// 为 Job 创 建 Split 

FileSystem fs = submitJobDir.getrFileSystem (jobCopy); 

LOG.debug ("Creating splits at " + fs.makeQualified (submitJobDir)); 
int maps = writeSplits (context, submitJobDir); // 创建 输入 分 


区 


在 上 述 代码 中 ， 通 过 writeSsplits0 函 数 完成 输入 分 区 Split 的 创建 ， 首 先 调 用 InputFormat (默认 为 TextlnputFormat) 的 getSplits(0 函 数 得 到 一 个 InputSsplit 分 区 数组 ，FilelnputFormat 类 的 getSplits() 
函数 在 切 分 文件 时 默认 调用 TextinputFormat 的 基 类 函数 FilelnputFormat.getSplits()， 通 过 listStatus() 国 数 取 得 输入 文件 路 径 列表 ， 过 滤 掉 和 .开头 的 路 径 以 及 根据 设置 的 mapred.input.pathFilter.class 
参数 选项 规则 过 滤 相关 路 径 ， 最 后 将 结果 保存 到 splits[] 中 ， 下 面 是 详细 流程 。 


1) 通过 listPaths 列 出 在 JobConf 中 指定 的 Input 中 的 所 有 符合 条 件 的 文件 保存 在 files[] 数 组 中 ， 以 及 所 有 文件 的 大 小 totalSize， 判 断 该 文件 是 否 为 目录 或 者 本 地 文件 系统 中 不 存在 该 文件 ， 如 果 是 ， 则 抛 


2) 根据 在 totalSize 和 JobConf 中 指定 的 mapred.map.tasks 数 字 计 算出 待 切 分 的 目标 块 大 小 goalSize， 具 体 计算 方法 为 : 


long goalSize = totalSize / (numSplits == 0 ? 1 : numSplits); 


即 简 单 地 用 Input 总 字 节 数 除 以 Map 任 务 数 。 
3) 计算 出 待 切 分 的 最 小 目标 块 大 小 ， 即 取 配 置 项 中 的 mapred.min.split.size 与 1 比较 的 较 大 值 。 
4) 以 Map 任 务 数 初始 化 用 于 保存 切 分 文件 结果 的 数组 列表 ArrayList splits。 


5) 遍历 统计 出 来 的 files 数 组 ， 如 果 该 文件 长 度 不 为 0， 而 且 可 以 切 分 (压缩 的 文件 则 不 能 切 分 ) ， 则 获取 HDFS 的 块 大 小 〈 即 hdfs 的 datanode 中 每 个 block 大 小 ， 默 认为 64MB， 在 目前 部 署 的 Hadoop 
机 群 中 大 多 采用 256MB) 。 根 据 goalSize、minsSize、blockSsize 计 算出 真正 用 于 切 分 的 块 大 小 ， 计 算 方法 代码 为 : 


long splitSize = Math.max (minSize, Math.min(goalSize, blockSize)) 


根据 计算 出 来 的 splitSize 去 切 分 每 个 文件 ， 每 个 块 大 小 最 大 为 splitSizex*1.1， 如 果 文 件 不 可 切 分 ， 则 将 整个 文件 作为 一 项 添加 到 splits 中 。 
6) 调用 Arrays.sort 将 分 片 计算 结果 splits 按 照 大 小 排序 。 


7) 在 hdfs 上 /$f{mapred.system.dir}y/${jobid}/ 目 录 下 创建 job.split， 并 将 分 片 计算 结果 splits[] 通 过 调用 writeSplitsFile() 方 法 写 到 job.split 中 ， 写 入 格式 为 : 


<format version> 
<numSplits> 

for each split: 
<RawSplit> 


步骤 6 将 JobConf 的 mapred.job.split.file 项 配置 为 job.split 在 HDFS 上 的 绝对 路 径 ， 根 据 splits[] 数 组 大 小 设置 Map 任 务 数 ， 实 现代 码 如 下 : 


AN 


jobCopy.setNumMapTasks (maps); 


步骤 7 得 到 作业 队列 名 并 设置 ACL 队 列 管理 信息 ， 代 码 如 下 : 


String queue = jobCopy.getQueueName () ;// 得 到 队列 名 

AccessControlList acl = jobpSubmitClient .detoueueAdmins (gqueue); 

// 设置 作业 队列 管理 信息 

jobCopy.set (QueueManager .toFullPropertyName (gqueue, 
QueueACL.ADMINISTER JOBS .getAcJName ()), 
acl .getACLString ()); 


步骤 8 将 JobConf 的 内 容 写 入 到 HDFS 的 /$fmapred.system.dir}/${jobid}job.xml 中 ， 核 心 代码 如 下 : 


FSDataOutputStream out = FileSystem.create (fs, submitJobrile, 
new FsPermission (JobSubmissionFiles.JOB FILE PERMISSION)); 
jobCopy.writeXml (out);// 将 JobConf 内 容 写 入 HDFS 


步骤 9 ”最 后 通过 jobSubmitClient.submitJob0) 将 名 为 Jobld 的 作业 提交 给 JobTracker， 代 码 实 现 如 下 : 


status = jobSubmitClient.submitJob!( 
jobIg, 
submitJobDir.toString (), 
jobCopy.getCredentials ()); 


返回 的 status 变 量 是 JobStatus 对 象 ， 用 于 跟踪 作业 状态 ， 至 此 作业 提交 完成 。 


7.8 作业 执行 分 析 


在 完成 作业 创建 过 程 后 在 JobClient.submitJob() 函 数 中 会 通过 JobSubmissionProtocol 协 议 调用 JobTracker.submitJob0 函 数 提 交 作 业 到 JobTracker， 在 submitJob() 函 数 中 主要 负责 用 户 作 业 的 初始 
化 、 构 造 JoblnProgress 对 象 ， 并 初始 化 任务 列表 等 ， 而 任务 的 真正 执行 实际 是 由 TaskTracker 完 成 的 ， 本 节 将 详细 分 析 作 业 的 执行 过 程 。 


7.8.1 _ JobTracker 初 始 化 


在 submitJob(0 函 数 被 调用 后 ，JobTracker 就 会 接收 到 新 的 job 请 求 ， 然 后 创建 一 个 JoblnProgress 对 象 并 通过 它 来 管理 和 调度 任务 。JoblnProgress 在 创建 的 时 候 会 初始 化 一 系列 与 任务 有 关 的 参数 ， 如 
job jar 的 位 置 (会 把 它 从 HDFS 复 制 本 地 的 文件 系统 中 的 | 临时 目录 里 ) ，Map 和 Reduce 的 数据 、job 的 优先 级 别 ， 以 及 记录 统计 报告 的 对 象 等 。 主 要 调用 过 程 ， 如 图 7-14 所 示 。 


Joblracker.subnutjJob!() JoblInProgress.JoblInProgress() 


图 7-14 JobTracket 初 始 化 调用 图 
从 图 7-14 可 以 看 到 JobTracker 初 始 化 中 是 在 JobTracker.submitJob() 函 数 中 构造 JoblnProgress 对 象 来 完成 JobTracker 初 始 化 工作 的 ， 下 面 详 细 分 析 这 两 个 浮 数 的 执行 过 程 。 
1.JobTracker.submitJob() 


submitJob(0 是 JobTracker 初 始 化 的 主 函 数 ， 其 主要 流程 如 下 : 


步骤 1 得 到 用 户 组 信息 ， 返 回 作 业 状 态 ， 新 建 joblnfo 对 象 ， 核 心 代码 如 下 : 


UserGroupInformation ugi = UserGroupInformation.dgetCurrentUser () ， 
synchronized (this) { 
if (jobs.containsKey (jobId) ) { 
// 返回 作业 状态 ， 保 证 作业 运行 时 不 再 启动 两 次 
return jobs .get (jobId) .getStatus () ， 


JobInfo = new JobInfo(jobId, new Text (ugi .getShortUserName () )， 
new Path (jobSubmitDir)); 


步骤 2 创建 JoblnProgress 对 象 , 不 锁定 JobTracker， 核 心 代码 如 下 : 


JobInProgress job = null; 
job = new JobInProgress (this, this.conf, jobInfo, 0, ts); 


Mi 


在 这 


个 上 


步骤 中 将 从 HDFS 上 复制 job.xml 资 源 文 件 。 


步骤 3 ”核对 队列 是 否 处 于 running 状 态 ， 并 检查 作业 访问 权限 ， 代 码 如 下 : 


// 核对 队列 是 否 处 于 
tring queue = job.getProfile() .getQueueName ()，; 

f (lIqueueManager.isRunning (gqueue)) { 

Exception("Queue \"" + gqueue + "\" is not running"); 


四 


P- 


} 
// 作 


throw new IO 


running 状 态 


上 访问 权限 管理 


aclsManager.checkAccess (job, ugi, Operation.SUBMIT JOPB); 


步骤 4 ”检查 作业 是 否 因为 无 效 的 内 存 需求 而 不 能 运行 ， 核 心 代码 如 下 : 


checkMemoryRequirements (job); 


步骤 5 


JobStatus status; 
status = addJob (jobIg, 


为数 addJob(0 返 回 
数 加 入 用 户 作 业 ， 


最 终 通 


通过 调用 addjJob(jobld，job) 函 数 来 提交 作业 ， 核 心 代码 如 下 : 


job); 


一 个 Jobstatus 对 象 用 于 跟踪 作业 的 运行 状态 ， 在 该 函数 其 内 部 先 将 用 于 统计 作业 提交 数 的 totalSubpmissions 变 量 加 1， 然 后 通过 调用 JoblnProgressListener 对 象 的 obAdded(job) 函 
过 调用 job.getQueueMetrics(.submitJobkjob.getJobConf(0，jobld) 函 数 完成 作业 提交 。 


2.JoblnProgress.JoblnProgress() 


这 个 函数 在 JobTrackersubmitJob( 初 始 化 作业 中 构造 JoblnProgress 对 象 时 调用 执行 ， 下 面 对 其 进行 详细 分 析 ， 其 主要 流程 如 下 : 


步骤 1 


this 


this 


创建 并 初始 化 用 于 向 JobClient 汇 报 作业 执行 状态 的 JobStatus 对 象 ， 代 码 如 下 : 


.jobtracker = jobtracker; 
.Status = new JobStatus (jobId, 0.0f, 0.0f, JobStatus.PREP); 


此 时 将 作业 运行 状态 设置 为 JobStatus.PREP。 


步骤 2 设置 用 户 名 信息 以 及 该 JoblnProgress 对 象 的 启动 时 间 ， 代 码 如 下 : 


this.status.setUsername (jobInfo.getUser () .toString ()); // 用 户 名 
this.jobtracker.getIinstrumentation() .addPrepJob (conf, jobIgd); 

this.startTime = jobtracker.getClock() .getTime (); 

status.setStartTime (startTime); // 设置 启动 时 间 


步骤 3 在 jobTracker 本 地 文件 系统 的 ${mapred.local.dirV 目 录 下 创建 $Wobidjjar，$tobidjxml 和 $Uobid} 目 录 ， 并 在 该 目录 下 创建 job.xml 文 件 ， 相 关 核 心 代 码 如 下 。 


this. 


localJobFile = de 
再 本 obI 


Q 十 1 


fault conf.getLocalPath (JobTracker .SUBDIR 


.Xxml") ;// ${jobid} .xml 文 件 


Path jobFilePath = JobSubmissionFiles.getJobConfPath (jobSubmitDir); 


JobFil 


步骤 4 ”从 作业 配置 JobConf 中 读 取 作业 优先 级 、 队 列 信息 ，Map 任 务 数 、Reduce 任 务 数 等 ， 


e = jobFilePath. 
fs.copyToLocalFile (jobFilePath, localJobrFile); 


toString (); 


this.priority = conf.getJobPriority (); // 作业 优先 级 
this.status.setJobPriority (this.priority); // 设置 作业 优先 级 
String queueName = conf.getQueueName (); // 队列 信息 

Queue queue = this.jobtracker.getQueueManager () .getQueue (queueName); 
this.submitHostName = conf.getJobSubmitHostName (); // 提交 主机 名 
this.submitHostAddress = conf.getJobSubmitHostAddress (); // 提交 主机 IP 
this.numMapTasks = conf.getNumMapTasks (); // Map 任 务 数 
this.numReduceTasks = conf.getNumReduceTasks (); // Reduce 任 务 数 
this.memoryPerMap = conf.getMemoryForMapTask (); // 每 个 Map 内 存 
this.memoryPerReduce = conf.getMemoryForReduceTask (); // 每 个 Reduce 内 存 


步骤 5 创建 taskCompletionEvents 列 表 ， 代 码 如 下 : 


this.taskCompletionl 


Events = new ArrayList<TaskCompletionEvent> 


(numMapTasks + numReduceTasks + 10) ， 


代码 如 下 : 


该 列表 用 于 在 JobTracker 上 跟踪 该 作业 完成 事件 ， 初 始 化 大 小 为 Map 任 务 数 +Reduce 任 务 数 +10。 


步骤 6 构建 jobACLs， 用 于 对 用 户 作 业 进 行 ACL 权 限 控制 ， 核 心 代码 如 下 : 


status.setJobACLs (jobtracker.getJobACLsManager () .constructJobACLs (conf) ) ; 


步骤 7 设置 Map、Reduce， 以 及 每 个 Tracker 上 任务 可 以 容忍 失败 的 百分比 ， 相 关 代 码 如 下 。 


// map 可 以 容忍 失败 的 百分比 


this.mapFailuresPercent = conf.getMaxMapTaskFailuresPercent ();} 
// reduce 可 以 容忍 失败 的 百分比 
this.reduceFailuresPercent = conf. 


ge 
// 每 个 Tracker 上 的 任务 可 以 容忍 失败 的 百分比 


tMaxReduceTaskFailuresPercent () ， 


this.maxTaskFailuresPerTracker = conf.getMaxTaskFailuresPerTracker () ， 


步骤 8 ”检查 每 个 reduce 的 估计 输入 大 小 是 否 小 于 reduce 大 小 的 限制 值 ， 最 后 注册 作业 。 


7.8.2 TaskTracker.startNewTask() 


在 初始 化 完成 之 后 可 通过 


处 理 新 任务 ， 即 开始 执行 


函数 启动 一 个 新 的 任务 。 在 心跳 检测 机 制 中 ， 如 果 JobTracker 返 


一 个 计算 任务 ， 主 要 流程 如 下 : 


芭 回 了 LaunchTaskAction 指 令 ， 则 TaskTracker 在 offerService 中 会 调用 Task-Tracker.startNewTask(0 国 数 来 


步骤 1 根据 JobTracker 发 回 的 动作 指令 LaunchTaskAction 对 象 action 构 造 Taskln-Progress 对 象 tip， 在 TaskTracker.run() 函 数 中 通过 调用 tasksToLaunch.remove(0) 得 到 tip。 
步骤 2 ”在 TaskTrackertasks 映 射 表 中 添加 taskld 与 tip 的 映射 关系 。 
步骤 3 ”判断 该 任务 为 Map 任 务 还 是 Reduce 任 务 ， 更 新 TaskTracker.mapTota| 或 Task-TrackerreduceTotal。 


步骤 4 调用 函数 TaskTracker.localizeJob(0) 进 行 初始 化 ， 并 调用 launchThread.start() 启 动 任务 ， 核 心 代码 如 下 : 


RunningJob rjob = localizeJob (tip); // 初始 化 任务 


launchThread. start (); // 启动 任务 


7.8.3 TaskTracker.localizeJob() 


此 函数 在 TaskTrackerstartNewTask0 中 被 调用 ， 主 要 负责 计算 任务 初始 化 (本 地 化 ) 并 启动 计算 任务 ， 主 要 的 执行 流程 如 下 。 


步骤 1 将 job.xm| 复 制 到 本 地 ${mapred.local.dirMtaskTrackeYVjobcache/$Uobldy 下， 核心 代码 如 下 : 


Path skPath = new Path (systemDirectory, 
jobId.toSstring()+"/"+TokenCache.JOB TOKEN HDFS FILE); 
systemFS.copyToLocalFile (skPath, localJobpTokenFile); // 复制 到 本 地 


步骤 2 ”从 job.xml 中 读 取 配置 ， 如 果 用 户 提 供 了 mapred.jar， 则 将 mapred.jar 通 过 copyToLocal() 复 制 到 本 地 $f{mapred.local.dir})/taskTracker/jobcache/${Jobld} 目 录 下 ， 然 后 调用 RunJar.unjJar0 将 
job.jar 解 压 到 本 地 ${mapred.local.dir}/taskTracker/jobcache/${Jobld}/work 目 录 下 。 


步骤 3 ”通过 TaskTracker.launchTaskForJob() 函 数 调用 TaskTracker.TasklnProgress.launch-Task() 函 数 开始 执行 计算 任务 。 
需要 注意 的 是 : 步骤 3 中 的 TasklnProgress 不 同 于 JobTracker 上 的 TasklnProgress， 它 是 TaskTrackerjava 中 的 TasklnProgress 类 。 下 面 介绍 此 步骤 的 详细 流程 。 


1) 调用 TaskinProgress.localizeTask0 初 始 化 计算 任务 。 在 初始 化 任务 时 会 在 本 地 目录 ${mapred.local.dir}taskTracker/jobcache/${Jobld}/${Taskld} 下 创建 job.xml 文 件 ， 这 个 job.xm| 与 
localizeJob() 中 的 job.xml 区 别 在 于 增加 了 mapred.task.id 项 ， 从 本 地 配置 文件 中 读 取 并 设置 mapred.local.dir 目 录 。 


2) 将 该 任务 的 执行 状态 设置 为 TaskStatus.State.RUNNING， 实 现代 码 如 下 : 


P- 


F (this.taskStatus.getRunState() == TaskStatus .State.UNASSIGNED) { 
this.taskStatus.setRunState (TaskStatus.State.RUNNING); 


3) 如 果 该 计算 任务 是 Map 任 务 ， 则 通过 MapTask.createRunner() 创 建 MapTaskRunner 线 程 对 象 runner， 并 启动 该 线程 ; 如 果 是 Reduce 任 务 ， 则 调用 ReduceTask.createRunner() 创 建 
ReduceTaskRunner 线 程 对 象 runner， 核 心 代 码 如 下 : 


setTaskRunner (task.createRunner (TaskTracker.this, this, rjob)); 
this.runner.start();// 启动 TaskRunner 线 程 


4) 设置 计算 任务 的 开始 时 间 ， 实 现 如 下 : 


long now = System.CcurrentTimeMillis () ， 
this .taskStatus .setStartTime (now); // 设置 计算 任务 的 开始 时 间 
this.lastProgressReport = now; 


7.8.4 TaskRunner.runO) 


在 TaskTrackerTasklnProgress.launchTask( 中 正 是 通过 调用 TaskRunner.start() 来 启动 线程 的 ， 也 就 是 最 终 执行 了 TaskRunner.run() 国 数 。 通 过 前 面 的 分 析 ， 我 们 知道 Map 任 务 或 Reduce 任 务 都 是 由 
TaskTracker.offerService( 中 向 JobTracer 发 送 心跳 消息 ， 然 后 JobTracker 向 TaskTracker 发 送 LaunchTaskAction 指 令 响应 心跳 ，TaskTracker 最 终 调 用 TaskTracker.TasklnProgress.lauhchTask( 创 建 计 
算 线程 来 执行 。 如 果 是 Map 任 务 ， 则 通过 MapTask 调 用 createRunner( 函 数 构造 MapTaskRunner 对 象 调用 基 类 函数 TaskRunner.run() 执 行 ; 如 果 是 Reduce 任 务 ， 则 通过 ReduceTask 调 用 createRunner() 
方法 构建 ReduceTaskRunner 对 象 调 用 基 类 TaskRunnerrun() 来 执行 ， 因 此 TaskRunnerrun() 是 此 任务 执行 中 一 个 非常 重要 的 函数 ， 其 主要 逻辑 步骤 如 下 : 


步骤 1 如 果 有 通过 DiscributedCache 分 发 的 文件 或 压缩 包 ， 则 根据 时 间 戳 来 决定 是 否 需要 复制 相关 文件 。 

步骤 2 ”如 果 是 Map 任 务 ， 则 调用 MapTaskRunner.prepare() 函 数 ， 并 删除 本 地 ${mapred.local.dir/$UTaskldyMfile.out 目 录 ; 如 果 是 Reduce 任 务 ， 则 调用 ReduceTaskRunner.prepare( 函 数 。 
步骤 3 ”将 相关 压缩 包 、 文 件 ， 以 及 work 目 录 加 到 classpath 中 。 

步骤 4 ”配置 jvm 参 数 ， 通 过 TaskRunner.runChild() 在 子 进程 中 构建 新 的 jvm 环 境 并 在 新 的 jvm 中 执行 mapperreducer， 并 通过 Process.waitFor() 等 待 子 进 程 退出 。 


步骤 5 在 Mapper 或 Reducer 运 行 完成 后 ， 通 过 TaskTracker.reportTaskFinished0 函 数 向 JobTracker 汇 报 计算 任务 执行 的 结果 。 
7.8.5 MapTask.run() 


从 7.8.4 节 中 我 们 知道 : 如 果 计 算 任 务 是 Map 任 务 ， 则 TaskRunnerrunChild() 将 会 在 新 的 JVM 环 境 中 通过 TaskTracker.Child.main(0 调 用 MapTask.run( 运 行 Mapper; 如 果 是 Reduce 任 务 ， 则 最 终 调用 
ReduceTask.run0 运 行 Reducer。 这 里 以 MapTask 为 例 进行 详细 分 析 ， 其 详细 流程 如 下 : 


步骤 1 新 建 一 个 TaskReporter 对 象 ， 然 后 调用 startCommunicationThread0 函 数 来 启动 一 个 新 的 通信 线程 ， 这 个 通信 线程 负责 与 TaskTracker 进 程 进 行 通信 ， 通 信 过 程 使 用 Task-UmbilicalProtocol 
协议 以 RPC 方 式 进 行 ， 核 心 代码 如 下 。 


TaskReporter reporter = new TaskReporter (getProgress(), umbilical, 
jvmContext); 
reporter.startCommunicationThread() ;// 启动 通信 线程 


startCommunicationThread 线 程 负责 计算 任务 (MapTask 或 ReduceTask)， 以 及 子 进程 与 父 进程 TaskTracker 之 间 的 通信 。 


步骤 2 ”判断 任务 是 否 是 一 个 cleanupJobTask 类 型 的 任务 ， 并 根据 具体 类 型 (jobCleanup、jobsetup 或 taskCleanup) 执行 相应 的 任务 处 理 函 数 。 


步骤 3 ”判断 参数 useNewApi， 如 果 为 真 ， 则 执行 runNewMapper(0， 否 则 执行 runOld-Mapper(0。 核 心 代 码 如 下 : 


if (useNewApi) { 
runNewMapper (job, splitMetalinfo, umbilical, reporter); 
} else { 
runOldMapper (job, splitMetaInfo, umbilical, reporter); 
} 


这 里 以 runNewMapper 为 例 来 详细 分 析 执 行 过 程 ， 其 核心 步骤 如 下 : 
1) 新 建 TaskAttemptContext、Mapper、InputFormat 及 InputSplit 等 所 需 对 象 ， 为 执行 Map 任 务 做 准备 。 


2) 读 取 Reduce 任 务 数 ， 如 果 为 0 ( 即 没有 Reduce) ， 则 构造 DirectMapOutputCollector 对 象 collector (在 构造 函数 中 会 初始 化 KeyClass、valueClass、 比 较 函 数 、 本 地 文件 系统 类 型 、 压 缩 类 型 等 
参数 ) ， 否 则 构造 MapOutputBuffer 对 象 (在 构造 函数 中 获取 OutputFromat 类 实例 ， 默 认为 TextOutputFormat 类 ， 然 后 取得 RecordWriter 类 ， 默 认为 TextOutputFormat 类 的 LineRecordWriter 实 
例 ) ， 核 心 代码 如 下 : 


if (job.getNumReduceTasks() == 0) { // 没有 Reduce 的 情况 
output new NewDirectOutputCollector (taskContext, job, umbilical, reporter); 
} else { // 有 Reduce 的 情况 
output = new NewOutputCollector (taskContext, job, umbilical, reporter); 
} 
3) 新 建 一 个 Context 对 象 mapperContex 并 初始 化 ， 然 后 调用 mapper.run(mapperContext) 执 行 Mapper。 


如 果 使 用 | 日 APl， 则 调用 runOldMapper(0 函 数 ， 最 大 不 同 之 处 在 于 | 日 APIl 中 会 从 配置 文件 中 读 取 用 户 定义 的 mapred.map.runner.class 项 生成 MapRunner 类 的 实例 runner， 通 过 runner.run0 调 用 
mapper 执 行 。 


在 执行 Map 时 会 调用 RecordReader.next() 接 口 循环 从 InputSplit 中 读 入 key 和 value， 通 过 用 户 定义 的 mapred.mapper.class 类 实例 mapper 调 用 mapper.map(key，value，output，reporter) 完 成 
Map 计 算 过 程 。 需 要 注意 的 是 : 如 果 用 户 采 用 Streaming 接 口 ， 则 调用 PipeMapper.map 调 用 用 户 定 义 的 Map 类 、 可 执行 程序 或 脚本 。 


ReduceTask.run(0 的 执行 过 程 和 MapTask.run0 清 理 类 似 ， 因 此 这 里 不 再 进行 分 析 ， 感 兴趣 的 读者 可 按照 MapTask.run0 的 分 析 思 路 阅读 相关 源 代码 进行 详细 分 析 。 


7 了 9 让 和 


本 章 对 MapReduce 进 行 了 深度 分 析 ， 首 先 对 其 总 的 结构 进行 了 详细 描述 ， 包 括 总 的 数据 流向 分 析 ， 总 的 逻辑 处 理 分 析 ; 然后 详细 分 析 了 MapTask 和 ReduceTask 的 实现 ， 通 过 对 这 两 个 核心 组 件 的 分 析 
使 读者 对 MapReduce 的 执行 逻辑 有 一 个 更 加 深入 的 理解 ; 接 下 来 详细 讲述 了 JobTracker、TaskTracker， 包 括 各 个 核心 子 线程 。JobTracker 和 TaskTracker 是 MapReduce 框 架 中 最 重要 的 后 台 守 护 进程 ， 
正 是 通过 这 两 个 守护 进程 Hadoop 才 可 以 正确 地 响应 用 户 的 作业 并 完成 任务 的 执行 ; 最 后 分 析 了 MapReduce 中 的 心跳 检测 实现 机 制 以 及 用 户 作业 的 创建 和 执行 。 通 过 对 本 章 的 学 习 读 者 将 会 对 MapReduce 
有 一 个 更 加 完善 和 深入 的 理解 。 


第 8 章 ”Hadoop Streaming 和 Pipes 原 理 与 实现 


Hadoop 的 设计 目标 就 是 作为 一 个 通用 的 分 布 式 计算 平台 ， 为 了 保证 跨 平台 的 兼容 性 ，Hadoop 框 架 使 用 Java 语 言 高 效 实现 ， 然 而 用 户 不 一 定 必须 要 使 用 Java 语 言 作为 开发 语言 ， 因 此 为 了 保证 编程 接口 
的 通用 性 ，Hadoop 提 供 了 Streaming 和 Pipes 编 程 框架 和 接口 ，streaming 编 程 框 架 通 过 标准 的 输入 /输出 作为 媒介 来 和 Hadoop 框 架 交 换 数 据 ， 因 此 任何 可 以 操作 标准 输入 /输出 的 编程 语言 都 可 以 编写 基于 
Hadoop 的 并 行 应 用 ， 而 Pipes 接 口 是 针 对 C/C++ 语言 的 编程 接口 ，Pipes 编 程 框架 通过 Socket 和 Hadoop 交 换 数据 并 通信 。 本 章 将 详细 介绍 Streaming 和 Pipes 的 编程 框架 原理 与 实现 机 制 |。 


8.1 Streaming 原理 浅 析 


Hadoop streaming 框 架 主 要 是 为 了 非 Java 程 序 员 而 设计 的 编程 接口 ，streaming 框 架 允 许 任何 可 以 操作 标准 输入 /输出 的 编程 语言 在 Hadoop 平 台中 使 用 ， 通 过 使 用 这 个 编程 接口 可 以 很 方便 地 将 已 有 
的 程序 向 Hadoop 平 台 移植 。Streaming 的 原理 其 实 很 简单 ， 就 是 通过 标准 的 输入 /输出 管道 来 让 用 户 的 程序 和 Hadoop 框 架 进 行 数据 传输 以 及 通信 ， 其 原理 图 ， 如 图 8-1 所 示 。 


图 8-1 中 的 Mapper 和 Reducer 都 是 可 执行 的 程序 文件 ， 可 以 用 任何 语言 编写 而 成 ， 特 别 之 处 在 于 它们 用 标准 输入 读 入 数据 ， 并 把 处 理 结果 写 入 标准 输出 ，Hadoop Streaming 框 架 正 是 通过 标准 输入 / 输 
出 和 用 户 的 Mapper 和 Reducer 可 执行 程序 进行 交互 的 。Streaming 框 架 使 用 Java 实 现 一 个 封装 用 户 可 执行 程序 的 MapReduce 作 业 ， 然 后 把 它 提交 到 Hadoop 和 集群 ， 同 时 监视 这 个 作业 的 整个 执行 过 程 ， 根 
据 图 8-1 所 示 的 流程 ， 其 操作 逻辑 步骤 如 下 : 


shuffle 
&sort 


图 8-1 Hadoop Streaming 原 理 图 


步骤 1 数据 切 分 ， 和 一 般 的 MapReduce 作 业 一 样 ， 根 据 用 户 指定 的 InputFormat 类 对 输入 的 数据 进行 切 分 ， 每 一 个 Split 分 块 对 应 一 个 Mapper 任 务 。 


步骤 2 Streaming 框 架 会 对 用 户 的 可 执行 程序 Mapper 进 行 一 个 封装 形成 一 个 Mapper 任 务 ， 在 Mapper 初 始 化 时 ， 每 一 个 Mapper 任 务 会 把 用 户 的 Mapper 可 执行 文件 作为 一 个 单独 的 进程 启动 ， 这 个 
Mapper 任 务 通过 调用 MapReduce Java API 获 取 每 个 split 的 <key，value> 键 值 对 输入 ， 通 过 管道 将 <key，value> 键 值 对 传递 给 用 户 的 Mapper 可 执行 程序 的 标准 输入 ， 同 时 收集 用 户 可 执行 程序 Mapper 
的 标准 输出 并 把 收 到 的 每 一 行内 容 转化 成 <key，value> 键 值 对 ， 作 为 Mapper 的 输出 。 在 默认 情况 下 ， 一 行 中 第 一 个 tab 之 前 的 部 分 作为 key， 之 后 的 (不 包括 tab) 作为 value。 如 果 没有 tab， 整 行 作 为 
key 值 ，value 值 为 null。 


需要 注意 的 是 ，Streaming 在 执行 Mapper 之 后 也 会 进行 Partitioner 及 Sort 处 理 ， 用 户 是 不 需要 进行 额外 处 理 的 。 
步骤 3 ” ”shuffle 和 sort 阶 段 ， 和 一 般 的 MapReduce 作 业 流程 一 样 要 经 过 shuffle 和 sort 阶 段 到 达 Reducer 端 。 


步骤 4 和 Mapper 任 务 类 似 ，streaming 框 架 也 会 对 用 户 的 Reducer 可 执行 程序 进行 封装 以 形成 一 个 Reducer 任 务 ， 每 个 Reducer 任 务 会 把 这 个 可 执行 文件 作为 一 个 单独 的 进程 启动 。Reducer 任 务 在 
运行 时 把 输入 切 分 成 行 并 把 每 一 行 提供 给 Reducer 可 执行 文件 进程 的 标准 输入 。 同 时 ，Reducer 任 务 收集 可 执行 文件 进程 标准 输出 的 内 容 ， 并 把 每 一 行内 容 转 化 成 <key，value> 键 值 对 ， 作 为 Reducer 任 务 
的 输出 。 在 默认 情况 下 ， 一 行 中 第 一 个 tab 之 前 的 部 分 作为 key， 之 后 的 (不 包括 tab) 作为 value。 当 然 Map 和 Reduce 中 的 key 和 value 的 切 分 方式 是 可 以 由 用 户 自 定义 的 。 


步骤 5 ”结果 数据 输出 ， 和 Java API 的 MapReduce 任 务 一 样 ， 在 Reducer 任 务 执行 完 之 后 ，Sstreaming 框 架 也 会 调用 用 户 指定 的 OutputFormat 类 将 执行 结果 写 入 HDFS 持 久 化 。 


8.2 Streaming 实现 架构 


我 们 知道 Streaming 框 架 中 通过 标准 输入 /输出 作为 用 户 的 可 执行 程序 和 Hadoop 框 架 进行 通信 和 数据 传输 的 协议 ， 而 在 MapReduce 中 每 个 作业 最 终 都 要 编译 打包 为 JAR 文 件 后 提交 到 集群 进行 计算 ， 
此 在 Streaming 中 通过 封装 用 户 的 可 执行 程序 为 一 个 Java 类 充当 相应 的 Mapper 类 和 Reducer 类 ， 其 特殊 之 处 在 于 用 户 的 可 执行 程序 将 作为 独立 的 进程 启动 ，Hadoop Streaming 框 架 会 将 读 取 文件 的 
<key，value> 键 值 对 通过 标准 输入 /输出 传递 给 用 户 的 可 执行 程序 进程 进行 处 理 ， 这 种 机 制 在 Streaming 的 实现 中 是 通过 核心 的 PipeMapper 类 和 PipeReducer 类 实现 的 ， 整 体 的 Streaming 实 现 架 构 ， 如 图 
8-2 所 示 。 
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图 8-2 ”Hadoop Streaming 实 现 架 构 


从 图 8-2 中 可 以 清晰 地 看 到 Streaming 框 架 的 核心 实现 架构 ， 图 中 的 虚线 将 Streaming 分 为 两 个 部 分 : 上 面 为 Hadoop Java 空 间 ， 下 面 为 用 户 的 编程 空间 。 如 果 用 户 使 用 C++ 编 写 Map 和 Reduce 可 执行 
程序 ， 那 么 虚线 以 下 的 部 分 就 是 用 户 的 C++ 进 程 空间 。 也 就 是 说 在 Streaming 框 架 中 ，Hadoop 系 统 和 用 户 编写 的 可 执行 程序 并 不 在 一 个 进程 空间 ， 而 是 相对 独立 的 ， 正 因为 这 一 点 才 使 得 Streaming 编 程 
具有 很 大 的 灵活 性 和 便捷 性 ， 但 同时 也 使 得 Hadoop 框 架 不 能 很 好 地 控制 用 户 的 可 执行 程序 ， 并 且 不 能 很 好 地 共享 底层 资源 。 从 图 8-2 中 我 们 也 可 以 看 到 Hadoop Java 端 的 PipeMapper 其 实 是 对 用 户 编程 环 
境 中 的 Mapper 可 执行 程序 进行 了 一 个 封装 ， 整 体 上 充当 了 Hadoop 的 Mapper 类 ， 用 户 的 可 执行 程序 作为 独立 的 进程 启动 ，PipeMapper 从 用 户 指定 的 InputFormat 类 获取 输入 文件 记录 后 解析 为 
<key，value> ， 接 着 通过 管道 传递 给 用 户 Mapper 可 执行 程序 的 标准 输入 ; PiperReducer 类 的 功能 和 PipeMapper 类 似 ， 因 此 在 Streaming 框 染 的 实现 中 最 核心 的 就 是 PipeMapper 和 PiperReducer 类 了 ， 
这 两 个 类 是 Hadoop Streaming 环 境 和 用 户 执行 环境 的 一 个 桥接 组 件 。 


下 面 将 详细 分 析 Streaming 的 实现 机 制 |。 


8.3 ”Streaming 核 心 实现 机 制 
8.3.1 ” 主 控 框架 实现 


首先 分 析 一 下 Streaming 的 主 函 数 Hadoopstreaming 类 ， 当 用 户 使 用 命令 启动 Streaming 作 业 时 就 直接 调用 这 个 类 的 main() 函 数 ， 其 功能 就 是 解析 用 户 的 命令 行 参数 并 创建 StreamJob 对 象 ， 然 后 通过 
ToolRunner.run0 函 数 提交 用 户 的 作业 到 集群 并 监控 作业 执行 状态 ， 核 心 代码 如 下 : 


StreamJob job = new StreamJob () ， 
returnSstatus = ToolRunner.run(job, args); 


这 里 最 核心 的 就 是 StreamJob 类 了 ， 其 实现 了 Tool 接 口 ， 利 用 默认 的 构造 冰 数 StreamJob() 在 创建 这 个 类 的 对 象 时 便 会 设置 MapReduce 作 业 的 相关 参数 选项 ， 其 包括 输入 、 输 出 、Mapper.、 
combiner、Reducer 等 streaming 参 数 选项 ， 同 时 初始 化 Hadoop 配 置 config 变量 。 


作业 的 提交 最 终 是 通过 调用 StreamJob 对 象 的 run(String[jargs) 方 法 执行 的 ，run0 函 数 要 获取 机 器 的 环境 变量 以 及 用 户 指 定 的 参数 设置 ， 然 后 通过 setJobConf0 函 数 设 置 作业 配置 ， 最 后 通过 
submitAndMonitorJob0 来 提交 作业 。 其 中 最 重要 的 一 步 就 是 设置 作业 配置 的 函数 setJobConf()， 正 是 通过 这 个 肖 数 来 指定 Mapper、Combiner 和 Reducer 等 重要 参数 ， 相 关 核 心 代码 实现 如 下 : 


// 设置 Mapper 类 以 及 Map 流 处 理 器 
jobConf .setMapperClass (PipeMapper.class); 
jobConf .setMapRunnerClass (PipeMapRunner.class); 
jobConf .set("stream.map.streamprocessor", 
URLENCoder .encode (mapCmgd , "UTF-8")); 


// 设置 Combiner 类 以 及 Combiner 流 处 理 器 

jobConf .setCombinerClass (PipeCombiner.class); 
jobConf .set("stream.combine.streamprocessor", 
URLENCoder .encode (comCmd , "UTF-8")); 


// 设置 Reducer 类 以 及 Reducer 流 处 理 器 

jobConf .setReducerClass (PipeReducer.class); 
jobConf .set("stream.reduce.streamprocessor", 
”URLEncoder.encode( redCmgd , "UTF-8")); 


从 上 述 代 码 中 可 以 很 清晰 地 看 到 设置 的 Mapper 类 为 PipeMapper.class， 也 就 是 说 在 Hadoop Java 端 是 通过 PipeMapper.class 完 成 Mapper 任 务 的 ，PipeMapRunner.class 调 用 执行 
PipeMapper.class， 而 PipeMapper.class 会 通过 mapCmd 启动 用 户 的 Map 可 执行 程序 进程 来 处 理 Map 逻 辑 ; 再 看 Combiner 类 的 设置 ， 是 通过 PipeCombiner.class 来 完成 Combiner 任 务 的 〈 如 果 用 户 指 
定 了 Combiner， 需 要 Java 实 现 ) ， 同 时 PipeCombiner.class 通 过 comCmd 来 启动 用 户 的 combiner 进 程 ; Reducer 类 被 设置 为 PipeReducer.class， 和 PipeMapper.class 类 似 ，PipeMapper.class 是 
Hadoop Java 端 的 Reducer， 同 样 它 会 通过 redCmd 来 启动 用 户 的 Reducer 可 执行 程序 进程 来 处 理 Reduce 逻 辑 。 


在 设置 完成 了 Mapper 和 Reducer 等 作业 配置 参数 后 会 通过 packageJobjJar() 函 数 将 Streaming 参 数 、Mapper 和 和 Reducer 可 执行 文件 、 相 关 类 库 、 配 置 文件 、 资 源 文件 等 打包 为 一 个 JAR 包 文件 ， 并 将 其 


提交 到 集群 运行 并 进行 监控 。 


从 Streaming 的 原理 中 很 清楚 地 知道 ，streaming 框 架 中 存在 两 个 进程 空间 ， 一 个 是 Hadoop 框 架 运 行 在 java 进程 空间 ， 另 一 个 就 是 Mapper 和 Reducer 是 作为 独立 的 进程 启动 的 ， 运 行 在 用 户 的 编程 语 
言 空间 ， 那 么 Streaming 框 架 是 如 何 管理 用 户 的 进程 空间 呢 ? 针 于 这 个 问题 ，Streaming 在 实现 时 直接 使 用 了 Java 本 身 的 ProcessBuilder 类 来 管理 用 户 的 进程 ， 包 括 对 用 户 的 Mapper，Reduce 可 执行 程序 
进行 进程 创建 、 启 动 及 停止 等 相关 进程 的 操作 和 管理 。 


从 上 述 的 主 控 框 架 实 现 中 知道 ， 用 户 的 Mapper 可 执行 程序 进程 是 通过 PipeMapper 类 启动 的 ， 其 继承 了 PipeMapRed 类 ，PipeMapRed 类 的 configure( 方 法 负责 初始 化 作业 相关 属性 ， 并 根据 用 户 输 
入 的 Map 和 Reduce 命 令 局 动 进程 ， 其 核心 实现 代码 如 下 : 


// 获取 启动 进程 命令 
String argv = getPipeCommand (job); 


String[] argvSplit = splitArgs (argv); 
// 根据 用 户 指定 的 Map 或 Reduce 命 令 ， 创 建 进程 对 象 


ProcessBuilder builder = new ProcessBuilder (argvSplit); 
builder.environment () .putAll (chilgdEnv.toMap ()); 

// 启动 进程 
sim = builder.start 


上 (); 
// 创建 标准 输出 流 ， 用 于 传输 数据 到 用 户 进 程 的 标准 


E 输 入 

clientOut = new DataOutputStream(new BufferedOoutputStream( 
sim.getOoutputstream(), 
BUFFER SIZE)); 

// 创建 标准 输入 流 ， 用 于 获取 用 户 进 程 的 标准 输出 

clientIn = new DataInputStream (new BufferedInPUtLStTeam ( 
Slim.getInPutStream () ， 
BUFFER SIZE) ) ; 


// 创建 标准 错误 流 ， 用 于 获取 用 户 进程 的 错误 流 
clientErr = new DataInPutStTeam ( 
new BufferedIinputStream(sim.getErrorStream())); 


在 上 述 核心 实现 代码 中 通过 getPipeCommand(Uob) 获 取 要 启动 进程 的 命令 ， 如 果 是 PipeMapper， 就 获取 用 户 的 Map 可 执行 命令 ; 如 果 是 PipeReducer 则 获取 用 户 的 Reduce 可 执行 命令 ， 然 后 通过 
ProcessBuilder(argvsplit) 创 建 相应 的 进程 对 象 并 启动 ， 最 后 还 会 创建 标准 输出 流 、 标 准 输入 流 ， 以 及 标准 错误 流 。 用 户 的 进程 正 是 通过 标准 输出 流 clientOut_ 和 标准 输入 流 clientln 来 与 Hadoop 
streaming 框 架 进 行 通信 并 传输 数据 的 。 


8.3.3 ”框架 和 用 户 程 序 的 交互 


我 们 知道 在 Streaming 框 架 中 用 户 的 Map 可 执行 程序 从 标准 输入 读 取 数据 ， 然 后 解析 <key，value> 键 值 对 ， 处 理 完 之 后 写 入 标准 输出 ， 那 么 Hadoop Streaming 框 架 和 用 户 的 可 执行 程序 之 间 的 交互 
具体 是 如 何 实现 的 呢 ? 这 个 问题 是 深入 理解 Streaming 原 理 的 一 个 非常 重要 的 关键 问题 ， 在 Streaming 中 是 通过 InputWriter 和 OutputReader 这 两 个 核心 基 类 实现 的 ， 其 类 图 ， 如 图 8-3 所 示 。 


<K Va 


OutputReader 


{abstract} InputWriter 
{abstract} 


initialize (PipeMapRed pipeMapRed) : vold 


readKeyValue () : boolean + initialize (PipeMapRed pipeMapRed) : void 
getCurrentKey () a < + wrteKey (K key) : Void 
getCurrentValue () uk + wrteValue (V value) : Volid 
getLastOutput () : String 


图 8-3 InputWriter 和 OutputReader 类 图 


从 图 8-2 的 类 图 中 可 以 看 到 ， 在 OutputReader 中 通过 函数 readKeyValue(0 从 输入 流 中 读 取 <key，value> 键 值 对 ， 相 应 的 getCurrentKey() 用 于 获取 当前 的 key，getCurrentValue( 用 于 获取 当前 的 
value; 在 InputWriter 类 中 通过 函数 writeKey() 将 key 对 象 写 入 输出 流 中 ， 通 过 函数 writeValue( 将 value 对 象 写 入 输出 流 中 。 这 两 个 核心 类 都 是 基 类 ， 有 具体 实现 包括 TextlnputWriter、 
TextOutputReader、RawBytesinputWriter、RawBytesOutputReader、TypedBytes-InputWriter、TypedBytesOutputReader 这 六 个 类 ， 它 们 都 继承 了 InputWriter 和 OutputReader 这 两 个 基 类 ， 点 
认 使 用 TextlnputWriter 和 TextOutputReader 用 于 处 理 文 本 数据 ， 其 他 四 个 是 为 处 理 二 进 制 数据 而 设计 的 。 这 里 以 TextlnputWriter 为 例 来 说 明 streaming 框 架 和 用 户 的 可 执行 程序 之 间 的 交互 ， 其 实现 代码 
如 下 : 


QOverride 

public void writeKey (Object key) throws IOException 1{ 
writeUTF8 (key); 
clientOut.write (inputSeparator); 


} 
QOverride 
public void writeValue (Object value) throws IOException { 
writeUTF8 (value); 

clientOut.write('\n'); 


从 上 述 代 码 中 可 以 看 到 ，writeKey(Object key) 函 数 用 于 将 key 对 象 写 入 标准 输出 流 clientOut， 同 时 还 写 入 分 隔 符 ， 这 个 分 隔 符 默 认 是 Tab 键 “\t” 分 隔 符 ， 当 然 用 户 是 可 以 自 定义 的 ， 具 体 自 定义 配置 
方法 在 后 续 的 内 容 中 会 讲 到 ; writeValue(Object value) 函 数 用 于 将 value 对 象 写 入 标准 输出 流 clientOut， 同 时 写 入 换行 符 。 正 是 通过 这 两 个 函数 将 来 自 Hadoop 框 架 的 <key，value> 键 值 对 写 入 标准 输出 
流 ， 而 写 入 标准 输出 流 的 <key，value> 键 值 对 会 直接 成 为 用 户 进程 的 输入 ， 因 为 用 户 的 可 执行 程序 正 是 从 标准 输入 读 取 数 据 处 理 后 写 入 标准 输出 的 。 


在 Streaming 框 架 中 ， 数 据 的 切 分 以 及 记录 的 读 取 是 由 Hadoop 框 架 本 身 的 InputFormat 负 责 的 ，Sstreaming 默 认 使 用 TextlnputFormat 类 ， 这 个 类 负责 将 输入 文件 划分 为 多 个 Inputsplit 逻 辑 分 块 ， 每 
一 个 分 块 被 发 送 到 Mapper 进 行 处 理 ， 同 时 创建 相应 的 RecordReader 对 象 用 于 读 取 每 个 InputSplit 分 块 的 记录 数据 。 


8.3.4 PipeMapper 和 PiperReducer 


PipeMapper 和 PiperReducer 是 Hadoop streaming 框 架 中 最 核心 的 实现 类 ， 这 两 个 类 都 继承 了 PipeMapRed 基 类 并 实现 了 Mapper 接 口 。 这 两 个 类 其 实 主要 做 了 两 件 事情 : 第 一 个 就 是 启动 用 户 的 可 
执行 程序 进程 ;第 二 个 就 是 负责 用 户 进程 和 Hadoop 框 架 之 前 的 交互 ， 具 体 来 说 就 是 将 来 自 Hadoop 框 架 的 <key，value> 通 过 标准 的 输入 /输出 流传 递 给 用 户 的 进程 ， 并 收集 来 自用 户 标准 输出 的 处 理 结 
果 。 这 里 以 PipeMapper 为 例 进行 分 析 ，PipeMapper 类 是 被 PipeMapRunner 类 调用 而 启动 Map 任 务 处 理 的， 通过 PipeMapRunner 的 run0 方 法 来 实现 ， 其 核心 代码 如 下 : 


public void run (RecordReader<K1, V1> input, 
OutputCollector<K2, V2> output,Reporter reporter) 
throws IOException { 
PipeMapper pipeMapper = (PipeMapper) getMapper () ， 
pipeMapper.startOutputThreads (output, reporter); 
super.run (input, output, reporter); 


} 


上 述 代码 中 的 getMapper0 函 数 是 PipeMapRunner 类 从 MapRunner 类 继承 过 来 的 ， 用 于 构造 PipeMapper 类 的 实例 对 象 ， 同 时 会 调用 对 象 的 configure() 方 法 ，configure() 方 法 会 调用 父 类 
PipeMapRed 的 configure() 方 法 ， 因 为 PipeMapper 类 继承 了 PipeMapRed， 所 以 通过 PipeMapRed 类 的 configure() 方 法 负责 初始 化 用 户 作业 的 属性 配置 ， 并 启动 用 户 的 Mapper 可 执行 程序 进程 。 函 数 
pipeMapper.startOutputThreads(output，reporten 会 启动 一 个 线程 获取 用 户 Mapper 可 执行 程序 进程 的 标准 输出 ， 并 做 适当 的 处 理 ， 然 后 以 <key，value> 的 形式 作为 Map 任 务 的 输出 。 


super.run(input，output，reporten) 方 法 会 调用 MapRunner 的 run() 方 法 ， 主 要 用 于 读 取 输入 文件 数据 的 记录 ， 对 于 每 个 记录 都 会 调用 一 次 PipeMapper 类 的 map() 浮 数 进行 处 理 ， 而 PipeMapper 类 
的 map(0 其 实 什么 都 没有 做 ， 仪 仅 是 将 接收 到 的 <key，value> 写 入 到 标准 输出 流 clientOut_， 通 过 标准 输入 将 接收 到 的 <key，value> 键 值 对 直接 传输 给 用 户 的 Mapper 可 执行 程序 进程 。PipeMapper 的 
map(0 阔 数 核心 代码 如 下 : 


if (!this.ignoreKey) { 
inWriter .writeKey (key); 


inWriter .writeValue (value); 


上 述 代 码 中 的 变量 ignoreKey 表 示 是 否 忽 略 key， 在 Hadoop streaming 框 架 中 默认 输入 格式 是 TextlnputFormat (通过 AutolnputFormat 会 自动 识别 输入 文件 的 格式 ) ， 因 此 从 优化 的 角度 系统 默认 
忽略 了 key， 只 写 入 value， 这 也 是 为 什么 在 使 用 streaming 方 法 处 理 文本 文件 时 用 户 的 可 执行 程序 Mapper 输 入 不 用 考虑 key 的 原因 。 如 果 用 户 不 需要 忽略 key 的 值 ， 则 可 以 设置 参数 
stream.map.input.ignoreKey 为 true 来 自 定 义 。PiperReducer 类 和 PipeMapper 类 功能 一 样 ， 也 是 做 了 两 件 事情 : 第 一 ， 根 据 用 户 指定 的 Reduce 可 执行 命令 启动 Reducer 处 理 进程 ; 第 二 ， 将 接受 来 自 
Hadoop 框 架 的 <key，value> 键 值 对 通过 标准 输入 流 clientOut 传送 给 用 户 可 执行 程序 Reduce 命 令 进程 的 标准 输入 。 具 体 实 现 和 PipeMapper 类 似 ， 在 此 不 再 乾 述 。 


8.4 ”Pipes 原 理 浅 析 


Hadoop Pipes 在 原理 上 和 Streaming 框 架 不 同 ， 相 对 于 Streaming 使 用 标准 输入 /输出 实现 用 户 程序 和 Hadoop 之 间 的 数据 交互 ，Hadoop Pipes 接 口 则 针对 C/C++ 语言 通过 Socket 让 用 户 的 C/C++ 程 
序 进程 空间 和 Hadoop 的 Java 框 架 进 行 交 互 ， 也 就 是 Pipes 框 架 使 用 Socket 作 为 媒介 实现 用 户 的 C+ + 进程 空间 和 Hadoop Java 进 程 空间 的 数据 交互 ， 原 理 如 图 8-4 所 示 。 


图 8-4 中 的 C++Mapper 和 C++Reducer 都 是 用 户 使 用 Pipes 提 供 的 C+ + 编程 接口 编写 的 可 执行 程序 。 与 Streaming 不 同 之 处 就 在 于 Pipes 框 架 通过 Socket 让 用 户 编写 的 C++MappeYVReducer 程 序 和 
Hadoop 框 架 进行 数据 通信 ， 在 Pipes 框 架 中 通过 Java 将 用 户 的 C+ + 程序 封装 成 为 MapReuce 的 任务 作业 ， 然 后 提交 到 集群 运行 并 进行 监控 。 依 据 图 8-4 中 的 流程 ， 主 要 逻辑 处 理 步骤 如 下 : 
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图 8-4 Hadoop Pipes 原 理 示意 图 


步骤 1 数据 切 分 。 在 默认 情况 下 Pipes 作 业 和 基于 Java 接 口 及 基于 Streaming 接 口 的 MapReduce 作 业 一 样 ， 都 是 根据 用 户 指定 的 InputFormat 类 对 数据 进行 切 分 的 ， 每 一 个 分 块 对 应 一 个 Mapper 任 
务 ， 但 是 如 果 用 户 使 用 Pipes 框 架 提 供 的 接口 重 写 了 RecordReader 类 ， 则 会 使 用 用 户 自 定义 的 类 来 对 记录 进行 <key，value> 切 分 。 


步骤 2 ” ”Pipes 框架 会 将 用 户 使 用 Pipes 接 口 编写 的 C++Mapper 程 序 封装 形成 一 个 Mapper 任 务 。 这 个 任务 其 实 是 由 两 个 部 分 组 成 的 : 一 部 分 是 Hadoop Java 进 程 空间 的 MapTask; 另 一 部 分 是 在 用 户 
C++ 进程 空间 的 Mapper 可 执行 的 程序 类 。Java 空 间 的 MapTask 通 过 调用 MapReduce Java API 获 取 每 个 split 的 <key，value> 键 值 对 ， 然 后 通过 DownwardProtocol| 协 议 将 <key，value> 键 值 对 以 
Socket 方 式 发 送 到 用 户 C+ + 进程 中 的 Mapper 类 。 在 用 户 的 C++ 进程 空间 是 以 Pipes 提 供 的 Protocol 类 来 接收 数据 的 ， 然 后 将 接收 的 数据 传输 给 用 户 的 C+ +Mapper， 如 果 用 户 同时 自 定 义 重 写 了 
Partitioner， 则 在 用 户 Mapper 类 处 理 完 后 使 用 用 户 的 Partitioner 进 行 处 理 。 最 终 在 用 户 C+ + 进程 空间 通过 Pipes 框 架 提供 的 UpwardProtocol 协 议 ， 以 Socket 方 式 将 数据 传输 给 Hadoop java 框架。 


步骤 3 ”Hadoop Java 框 架 会 启动 一 个 接收 数据 的 守护 线程 ， 接 收 来 自用 户 C+ + 进程 空间 UpwardProtocol 传 来 的 Mapper 输 出 数据 ， 然 后 写 入 本 地 磁盘 ， 之 后 直接 进入 Hadoop 框 架 本 身 的 shuffle 和 


sort 阶 段 到 达 Reducer 端 。 


步骤 4 和 Mapper 任 务 类 似 ，Pipes 框 架 会 将 用 户 使 用 Pipes 接 口 编写 的 C++Reducer 程 序 封装 成 一 个 Reducer 任 务 。 这 个 任务 也 是 由 两 个 部 分 组 成 的 : 一 部 分 是 Hadoop Java 进 程 空间 的 
ReduceTask; 另 一 部 分 是 用 户 C++ 进 程 空间 的 Reducer 可 执行 程序 类 。 在 shuffle 和 sort 完 成 之 后 ，Hadoop 的 ReduceTask 会 将 sort 后 的 数据 通过 DownwardProtocol 协 议 以 Socket 方 式 发 送 到 用 户 C++ 进 


程 空间 的 Reducer 类 。 


步骤 5 ”数据 结果 输出 。 在 Reducer 任 务 执行 完成 之 后 ，Pipes 框 架 会 调用 用 户 指定 的 OutputFormat 类 将 结果 数据 写 入 HDFS 持 久 化 。 如 果 用 户 使 用 Pipes 提 供 的 接口 重 写 了 RecordWrite， 则 会 使 用 用 
户 自 定 义 的 RecordWrite 将 结果 数据 写 入 HDFS。 


8.5 “Pipes 实 现 架构 
从 上 述 对 Pipes 原 理 的 讲述 中 我 们 知道 Pipes 框 架 的 核心 设计 就 是 通过 Socket 方 式 实现 用 户 C++ 进 程 的 程序 和 Hadoop 框 架 之 间 的 通信 ， 因 此 Hadoop 框 架 相当 于 服务 器 端 ， 而 用 户 的 程序 相当 于 客户 


端 。 在 实现 上 ， 服 务 器 端 MapTask 其 实 是 对 用 户 使 用 C++Pipes 接 口 编写 的 Mapper 类 的 一 个 Java 端 封装 ; ReduceTask 其 实 是 对 用 户 使 用 C++Pipes 接 口 编写 的 Reducer 的 一 个 Java 端 封装 。 在 运行 时 用 户 
的 程序 在 C+ + 进程 空间 以 独立 进程 的 方式 启动 ， 而 数据 交互 是 通过 Socket 来 交互 传输 。Hadoop Pipes 框 架 的 实现 架构 ， 如 图 8-5 所 示 。 
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从 图 8-5 中 可 以 清晰 地 看 到 Hadoop Pipes 的 实现 架构 ， 和 Streaming 实 现 架 构 类 似 ， 虚 线 上 面 是 Hadoop Java 空 间 ， 虚 线 下 面 为 用 户 的 C++ 进 程 空间 。Hadoop Java 端 的 PipesMapRunner 是 对 用 户 的 
C++Mapper 程 序 的 封装 ， 整 体 上 充当 Hadoop 的 Mapper 类 。 用 户 的 Mapper 类 在 C++ 进 程 空间 以 独立 进程 运行 。Java 端 的 PipesMapRunner 从 用 户 指定 的 InputFormat 类 获取 输入 数据 记录 并 解析 为 
<key，value> 键 值 对 ， 然 后 通过 DownwardProtocol 将 <key，value> 键 值 对 以 Socket 方 式 发 送 到 用 户 C+ + 进程 空间 的 Protocol，Protocol 负 责 接 收 来 自 Hadoop Java 端 DownwardProtocol 发 送 的 数 
据 ， 最 后 Protocol 将 接收 的 数据 传输 给 用 户 的 C+ +Mapper 类 处 理 。 在 Mapper 类 处 理 完成 之 后 Pipes 框 架 在 C++ 端 通过 UpwardProtocol 将 处 理 结果 发 送 到 Hadoop Java 端 的 OutPutHandler 写 入 本 地 磁 
盘 。Reducer 的 处 理 逻 辑 和 Mapper 类 似 ， 对 图 8-5 的 分 析 可 以 看 出 Pipes 框 架 的 最 核心 实现 就 是 PipesMapRunner 和 PipesReducer， 以 及 DownwardProtocol 和 UpwardProtocol。 下 面 对 Pipes 框 架 的 核心 
实现 机 制 进行 分 析 。 


图 8-5 ”Hadoop Pipes 的 实现 架构 


8.6 Pipes 核 心 实现 机 制 
8.6.1 主 控 类 实现 


在 用 户 使 用 Hadoop pipes 命 令 执 行 作业 时 首先 提交 作业 到 Submitter 类 ， 在 创建 Submitter 类 对 象 后 直接 调用 对 象 的 run() 方 法 。 在 Submitter 类 对 象 的 run() 方 法 中 会 先 解析 用 户 pipes 命 令 行 选项 参数 
和 pipes 作 业 控制 相关 的 Hadoop 通 用 参数 。pipes 命 令 行 参数 选项 可 以 参考 6.7 节 的 内 容 ，Pipes 作 业 控制 相关 的 Hadoop 通 用 参数 ， 如 表 8-1 所 示 。 


表 8-1 Pipes 通 用 控制 参数 


参数 名 称 意义 说 明 


hadoop.pipes.executable 用 户 使 用 Pipes 接口 编写 的 C++ 可 执行 程序 路 径 

hadoop.pipes.java.recordreader 是 否 使 用 Java 内 置 的 RecordReader，true 表示 是 ; false 表示 使 用 C++ 接口 自 定义 
hadoop.pipes.java.recordwriter 是 否 使 用 Java 内 置 的 RecordWrite ，true 表示 是 ; false 表示 使 用 C++ 接口 自 定义 
hadoop.pipes.java.mapper 是 否 在 Pipes 中 使 用 Java 接口 的 Mapper， 如 果 指 定 了 Map 参数 则 为 true 
hadoop.pipes.java.reducer 是否 在 Pipes 中 使 用 Java 接口 的 Reducer， 如 果 指 定 了 Reduce 参数 则 为 true 
hadoop.pipes.partitioner 是 否 在 Pipes 中 使 用 Java 接口 的 .Partitioner， 如 果 指 定 了 Ppartitioner 人 参数 则 为 true 


在 解析 完 Pipes 相 关 参 数 之 后 就 会 执行 unJob(job) 函 数 ， 在 这 个 函数 中 先 通 过 setup-PipesJob(conf) 方 法 来 对 作业 配置 参数 进行 初始 化 ， 然 后 通过 JobClient.runJob(conf) 提 交 Pipes 作 业 到 集群 并 监控 
运行 。 在 函数 setupPipesJob(conf) 中 设置 用 户 作业 的 MapRunner、Partitioner、Reducer 以 及 OutputFormat， 实 现代 码 如 下 : 


if (lgetIsJavaMapper (conf)) { 

// 设置 MapRunner 

conf.setMapRunnerClass (PipesMapRunner .class); 

// 设置 用 户 的 partitioner 

setJavaPartitioner (conf, conf.getPartitionerClass ()); 
// 设置 Partitioner 

conf.setPartitionerClass (PipesPartitioner.class); 


让 


| 


f (lgetIsJavaReducer (conf)) { 
// 设置 Reducer 
conf.setReducerClass (PipesReducer.class); 

if (lgetIsJavaRecordWriter (conf)) { 

// 设置 OutputFormat 
conf.setOutputFormat (NullOutputFormat.class); 
} 
} 


从 上 述 代 码 可 以 清晰 地 看 到 ， 在 Pipes 框 架 中 Hadoop Java 端 是 由 PipesMapRunner 作 为 MapRunner; PipesPartitioner 作 为 Java 端 的 Partitioner; PipesReducer 作 为 Java 端 的 Reducer 来 和 Pipes 框 架 
交互 的 ， 然 后 设置 Pipes 作 业 的 其 他 相关 参数 配置 。 


完成 作业 配置 之 后 会 将 用 户 使 用 Pipes 接 口 编写 的 C+ + 程序 作为 独立 的 进程 启动 ， 用 户 的 C+ + 程序 就 是 Socket 通 信 的 客户 端 ， 而 Hadoop Pipes Java 框 架 就 是 Socket 的 服务 端 ， 以 此 来 实现 数据 的 传 
输 。 


8.6.2 ”用 户 进 程 管理 


和 Hadoop Streaming 框 架 类 似 ，Hadoop Pipes 框 架 中 有 两 个 进程 空间 : 一 个 就 是 Hadoop Pipes 框 架 本 身 的 Java 进 程 空间 ， 另 一 个 就 是 用 户 的 C++ 进 程 空间 。 用 户 使 用 Pipes 编 程 接口 编写 的 C++ 执 
行程 序 都 是 作为 独立 进程 启动 运行 的 ， i Java 之 间 是 通过 Socket 方 式 进行 通信 和 数据 传输 的 。 在 进程 管理 中 Hadoop Pipes 框 架 也 是 使 用 Java 本 身 的 ProcessBuilder 类 来 管理 
用 户 进 程 的 ， 包 括 对 用 户 C+ + 进程 中 的 Mapper 类 和 Reducer 类 进程 的 创建 、 启 动 以 及 停止 等 相关 操作 和 管 


与 Hadoop Streaming 不 同 之 处 在 于 Pipes 框 架 中 Application 类 的 静态 方法 runClient(List<String>command，Map<String，String>env) 封 装 了 对 用 户 C++ 程 序 进程 的 启动 操作 ， 实 现代 码 如 下 : 


static Process runClient (List<String> commang, 
Map<String, String> env) throws IOException { 
// 构造 ProcessBuilder 进 程 管理 对 象 
ProcessBuilder builder = new ProcessBuilder (commangd); 
if (env != null) { 
builder.environment () .putAll (env); 


} 
// 启动 用 户 进 程 ， 返 回 Process 类 对 象 
Process result = builder.start();} 
return result; 


在 上 述 代码 中 传 入 的 参数 command 便 是 用 户 通 过 program 参 数 选 项 指定 的 用 户 C++ 可 执行 程序 路 径 。 


8.6.3 PipesMapRunner 


PipesMapRunner 继 承 了 MapRunner<K1，V1，K2，V2> 类 ， 是 用 户 使 用 Pipes C+ + 接口 编写 的 Mapper 类 的 Java 端 封装 。PipesMapRunner 中 的 主要 处 理 都 在 它 的 run() 函 数 中 完成 的 ， 具 体 流 程 如 
下 : 


步骤 1 通过 Application 类 的 对 象 启 动 Hadoop Pipes Java 端 的 serverSocket 服 务 端 ， 并 将 用 户 的 C++ 可 执行 程序 Mapper 作 为 独立 的 进程 启动 ， 用 户 的 Mapper 就 是 Hadoop Pipes 框 架 的 
clientSocket 客 户 端 。 


PipesMapRunner 中 的 核心 代码 如 下 : 


Application<K1l, V1l, K2, V2> application = null; 
try {// 得 到 RecordReader 
RecordReader<FloatWritable, NullWritable> fakeInput = 
(!Submitter.getIsJavaRecordReader (job) && 
!Submitter.getIsJavaMapper (job)) ? 
(RecordReader<FloatWritable, NullWritable>) input : null; 
// 构造 Application 对 象 
application = new Application<K1, Vi1, K2, V2>(job, fakeInput, 
output, reporter, 
(Class<? extends K2>) job.getOutputKeyClass ()， 
(Class<? extends V2>) job.getOutputValueClass ()); 


在 上 述 代码 中 构造 Application 对 象 过 程 中 执行 了 两 个 重要 操作 ， 第 一 个 就 是 启动 Pipes Java 的 serverSocket 服 务 端 ; 第 二 个 就 是 启动 C++ 中 用 户 的 Mapper 类 clientSocket 客 户 端 。 可 以 分 析 一 下 
Application 类 的 构造 函数 ， 其 相关 的 核心 代码 如 下 。 


// Application.java 类 中 的 构造 函数 


// 启动 Pipes Java 空 间 serverSocket 服 务 端 
serverSocket = new ServerSocket (0) ， 


Map<String, String> env = new HashMap<String,Sstring>(); 
/4 添加 所 需 环 境 变量 和 通信 端口 
env.put ("TMPDIR", System.getProperty("java.io.tmpdir")); 
env.put ("hadoop.pipes.command.port", 

Integer.toString (serverSocket .getLocalPort ())); 

// 开启 Hadoop 安 全 认证 时 需要 添加 token 

Token<JobTokenldentif?ier> jobToken = TokenCache.getJobToken ( 
conf .getCredentials () ) ， 


// 获取 用 户 使 用 Pipes 接 口 编写 的 c++ 执行 程序 路 笃 ， 即 参数 选项 program 所 指 
String executable = 
DistributedCache.getLocalCacheFiles (conf) [0] .toString (); 
if (!new File (executable) .canExecute()) { 

// 如 果 没 有 执行 权限 在 此 添加 执行 权限 


FileUtil.chmod (executable, “ut+x"); 


cmd.add (executable); 


// 将 用 户 编写 的 C++ Mapper 作 为 独立 的 进程 启动 ， 并 作为 客户 端 
process = runClient (cmd, env); 
clientSocket = serverSocket.accept () ， 


在 上 述 代码 中 最 终 利 用 runClient(cmd，env) 函 数 将 用 户 的 C++Mapper 类 作为 独立 的 进程 启动 。 
步骤 2 构造 Socket 通 信和 所 需要 的 传输 协议 类 


在 Java 端 是 通过 DownwardProtocol 协 议 类 传输 数据 到 用 户 的 C++ 进 程 中 的 ， 具 体 的 DownwardProtoco| 实 现 为 BinaryProtocol， 在 Application 中 的 实现 代码 如 下 : 


// 构造 OoutputHandler 用 于 准备 接收 来 自用 户 Mapper 的 处 理 结果 
handler = new OutputHandler<K2, V2>(output, reporter, recordReader, digestExpected); 
K2 outputKey = (K2)ReflectionUtils.newInstance (outputKeyClass, conf); 

V2 outputValue = (V2) 
ReflectionUtils.new] Instance (outputValueClass, conf); 
// 构造 DownwardProtocol 协 议 类 ， 将 Java 端 的 <key, value> 发 送 
// 用 户 C++ 端 的 Mapper 进 程 
downlink = new BinaryProtocol<K1l, V1, K2, V2>(clientSocket, handler, outputKey, outputValue, conf); 
downlink.authenticate (digestToSend, challenge); 

waitForAuthentication(); 

LOG.debug ("Authentication succeeded"); 
downlink.start (); // 启动 发 送 进程 


downlink.setJobConf (conf);} 


步骤 3 ”Hadoop Pipes 框 架 的 Java 端 根据 RecordReader 读 取 <key，value> 键 值 对 ， 然 后 将 读 取 的 <key，value> 键 值 对 以 Socket 方 式 传输 给 Pipes 框 架 中 用 户 C++ 进 程 中 的 Mapper 程 序 ， 具 体 传输 
是 通过 DownwardProtocol 协 议 来 执行 的 。 


其 核心 代码 如 下 : 


// PipesMapRunner.java 中 的 run() 方 法 


// 得 到 DownwardProtocol 对 象 ， 准 备 发 送 <key,value> 
DownwardProtocol<K1, V1l> downlink = application.getDownlink (); 


Kl key = input. CreateKey () ， 

V1 value = input.createValue () ， 

downlink.setInputTypes (key.getClass () .getName ()， 
value.getClass () .getName () ) ， 
while (input.next (key, value)) { 

// 通过 Socket 方 式 发 送 <key, value> 到 用 户 C++ Mapper 进 程 
downlink.mapItem (key, value); 


在 上 述 的 核心 代码 中 通过 DownwardProtocol 对 象 (具体 为 步骤 2 中 创建 的 BinaryProtocol 实 现 ) downlink 的 mapltem(key，value) 方 法 不 断 将 读 取 的 <key，value> 键 值 对 发 送 到 用 户 C+ + 进程 中 的 
Mapper 程 序 。 


在 Pipes 的 C+ + 进程 中 ， 通 过 Protocol| 接 受 来 自 Java 端 的 <key，value> 数 据 后 会 将 其 直接 传 给 用 户 的 Mapper 程 序 ; 之 后 Mapper 的 输出 再 通过 UpwardProtocol 对 象 传输 给 Hadoop Pipes 框 架 的 Java 
端 ， i 然后 进入 Hadoop 的 正常 流程 ， 最 终 Mapper 任 务 将 结果 写 入 本 地 并 进行 后 续 的 Shuffle&Sort 阶 段 。 


8.6.4 PipesReducer 


与 PipesMapRunner 类 似 ，PipesReducer 实 现 了 Reducer<K2，V2，K3，V3> 接 口 ， 是 用 户 使 用 Pipes C++ 接口 编写 的 Reducer 类 的 Java 端 封装 。 在 PipesReducer 中 通过 reduce( 函 数 来 完成 整个 
Reducer 任 务 ， 主 要 处 理 流程 如 下 : 


步骤 1 用 户 启 动 Reducer 应 用 ， 并 且 将 读 取 的 key 和 对 应 key 的 所 有 value 通 过 DownwardProtocol 类 的 对 象 downlink 发 送 到 C+ + 进程 中 的 Reducer 进 程 进行 处 理 。 
PipesReducer 中 的 核心 代码 如 下 : 


// 启动 用 户 Reducer 进 程 
startApplication (output, reporter); 

// 发 送 key 

downlink.reducerey (key); 

while (values.hasNext()) {// 循环 发 送 key 下 所 有 的 value 


downlink.reduceValue (values .next () ) ; 


} 


步骤 2 ”和 Mapper 类 似 ， 在 C++ 进程 端 用 户 的 Reducer 程 序 将 接收 的 <key，list[value]> 处 理 之 后 也 是 通过 UpwardProtocol 传 输 给 Hadoop Pipes Java 端 的 ， 最 终 根 据 用 户 指定 的 OutputForamt 将 作 
业 运 行 结果 写 入 HDFS 进 行 持久 化 。 


步骤 3 ”清理 工作 。 在 Reducer 执 行 完成 之 后 ，PipesReducer 通 过 close() 方 法 通知 C+ + 端 关闭 用 户 进程 ， 并 释放 相关 资源 。 


8.6.5 C++ 端 HadoopPipes 


Pipes 框 架 的 C++ 端 主要 在 HadoopPipes.cc 文 件 中 实现 。HadoopPipes 定 义 了 HadoopPipes 命 名 空间 ， 实 现 了 用 户 C++ 端 的 数据 接收 与 发 送 ， 以 及 Pipes 的 C++ 编 程 接口 类 ， 包 括 Mapper、 
Reducer、Partitioner、RecordReader 和 RecordWriter 等 。 在 HadoopPipes 中 关键 的 就 是 和 pipes Java 端 的 数据 通信 了 ， 包 括 C++ 端 的 DownwardProtocol、UpwardProtocol、Protocol、 
TextUpwardProtocol (继承 了 UpwardProtocol) ，TextProtocol (继承 了 Protocol) 、BinaryUpwardProtocol (继承 了 UpwardProtocol) 、BinaryProtocol (继承 了 Protocol) 。 其 中 TextProtocol 
用 于 接收 来 自 Pipes Java 端 的 文本 类 型 数据 ，TextUpwardProtocol| 用 于 发 送 用 户 文 本 类 型 的 处 理 结果 数据 到 Pipes Java 端 ，BinaryProtocol 用 于 接收 来 自 Pipes Java 端 的 二 进 制 数 
据 ，BinaryUpwardProtocol 用 于 发 送 用 户 的 二 进 制 处 理 结果 数据 到 Pipes Java。 这 些 传输 协议 类 和 Java 端 的 实现 原理 是 一 样 的 ， 在 此 就 不 做 详细 的 源 代码 分 析 了 ， 对 具体 实现 细节 感 兴趣 的 读者 可 以 直接 阅 
读 HadoopPipes.cc 文 件 中 的 源 代码 。 


8.7 小 结 


本 章 主要 对 Hadoop streaming 框 架 和 Pipes 框 架 的 原理 和 实现 进行 了 讲述 ， 在 Streaming 框 架 中 首先 从 原理 上 浅 析 其 工作 机 制 ， 然 后 从 源 代码 的 角度 深入 分 析 了 其 实现 框架 ， 最 后 从 核心 实现 机 制 上 进 
行 了 详细 分 析 ; 在 Pipes 原 理 与 实现 机 制 部 分 首先 初步 分 析 了 其 基本 原理 ， 然 后 对 其 实行 架构 ， 核 心 模块 的 实现 机 制 也 进行 了 详细 分 析 。 这 两 个 编程 接口 最 明显 的 不 同 之 处 在 于 Streaming 框 架 使 用 标准 输 
入 /输出 来 和 Hadoop 框 架 进 行 交互 ， 而 Pipes 框 架 是 针对 C/C++ 语言 使 用 socket 来 和 Hadoop 框 架 交 进行 互通 的 。 


虽然 这 两 个 编程 接口 易于 使 用 ， 并 且 有 着 很 强 的 通用 性 ， 但 是 从 其 实现 机 制 上 来 看 有 一 个 较为 显著 的 缺点 ， 就 是 用 户 的 程序 和 Hadoop 框 架 并 不 在 一 个 进程 空间 ，Hadoop 框 架 只 能 将 用 户 的 可 执行 程序 
作为 独立 的 进程 启动 ， 无 法 进行 更 多 的 控制 ， 在 内 存 等 资源 管理 上 无 法 共享 ， 用 户 程 序 和 Hadoop 框 架 直接 的 交互 存在 大 量 的 数据 复制 从 而 消耗 额外 的 带宽 资源 。 然 而 更 具 优 势 的 是 Streaming 框 架 和 Pipes 
框架 给 用 户 提 供 了 更 加 灵活 的 编程 接口 ， 使 得 开发 者 可 以 同时 使 用 多 种 语言 来 编写 Hadoop 的 应 用 程序 ， 这 对 于 一 个 通用 平台 来 讲 是 至 关 重 要 的 。 


第 9 章 ”Hadoop 作 业 调度 系统 


一 核心 功能 就 是 作业 调度 要 做 的 事情 ， 在 调度 机 制 中 涉及 三 个 核心 问题 : 第 一 个 就 是 计算 资源 的 组 织 ; 第 二 个 就 是 用 户 作 业 的 选择 策略 ; 第 三 个 就 是 任务 的 分 配 策略 。 第 一 个 问题 是 调度 的 一 个 基础 问题 ， 
在 Hadoop 中 是 以 计算 模 位 为 基本 调度 单位 进行 组 织 的 ， 并 以 此 整合 所 有 集群 节点 的 计算 资源 ， 第 二 个 问题 和 第 三 个 问题 中 不 同 的 作业 选择 策略 和 分 配 策略 就 构成 了 不 同 的 调度 算法 。 不 好 的 调度 算法 会 导 
致 整个 集群 中 的 网 络 流量 增加 ， 服 务 器 负载 不 均衡 ， 同 时 使 用 户 的 作业 也 不 一 定 得 到 有 效 的 响应 和 执行 。 调 度 算法 的 优 劣 影响 到 整个 Hadoop 云 计算 集群 的 资源 利用 率 ， 因 此 在 实际 的 生产 集群 中 调度 是 最 
核心 的 问题 。 


在 目前 的 Hadoop 系 统 中 ， 默 认 的 调度 器 为 FIFO 调 度 ， 主 要 适合 单 队列 的 批 处 理 作业 需求 。 针 对 多 用 户 多 队列 的 控制 需求 ， 雅 虎 开发 并 向 开源 社区 贡献 了 容量 调度 器 一 一 Capacity Scheduler; 
Facebook 开 发 并 贡献 了 公平 调度 器 一 一 FAIR scheduler， 这 两 个 调度 器 作为 第 三 方 的 Hadoop 调 度 器 ， 其 有 效 性 已 经 在 实际 生产 环境 下 得 到 了 验证 。 除 此 之 外 ，HOD (Hadoop on Demand) 调度 器 从 
集群 逻辑 划分 的 角度 在 一 个 共享 物理 集群 上 管理 乡 个 逻辑 集群 的 方式 以 达到 资源 调度 的 目的 ， 这 种 调度 也 已 经 成 为 一 个 典型 的 代表 。 本 章 将 对 Hadoop 作 业 调度 系统 ， 已 有 调度 器 的 设计 原理 、 调 度 策 略 以 
及 配置 使 用 做 详细 的 介绍 。 


9.1 -作业 调度 概述 


9.1.1 相关 概念 
在 学 习 Hadoop 作 业 调 度 系统 之 前 首先 需要 了 解 一 下 相关 的 基础 概念 ， 这 样 便于 更 好 地 理解 Hadoop 的 作业 调度 系统 。 
1. 作 业 管 理 


在 调度 系统 中 作业 管理 包括 作业 提交 权限 控制 ， 作 业 运 行 状态 查看 权限 控制 等 。 例 如 ， 可 限定 可 提交 作业 的 用 户 、 可 限定 可 查看 作业 运行 状态 的 用 户 、 可 限定 普通 用 户 只 能 修改 自己 作业 的 优先 级 ， 杀 
死 自己 的 作业 、 高 级 用 户 可 以 控制 所 有 作业 等 。 


2. 用 户 和 分 组 

Hadoop 使 用 Linux 用 户 管理 ， 因 此 Hadoop 中 的 用 户 就 是 Linux 中 的 用 户 ，Hadoop 中 的 分 组 就 是 Linux 中 的 分 组 。 

在 Hadoop 系 统 中 以 组 为 单位 组 织 管理 作业 ， 每 个 用 户 只 能 向 固定 分 组 中 提交 作业 ， 只 能 使 用 固定 分 组 中 配置 的 资源 ; 同时 可 以 限制 每 个 用 户 提交 的 作业 数 、 使 用 的 资源 量 等 。 
3. 资 源 池 


资源 池 (pool) 是 Hadoop 公 平 调度 器 Fair Scheduler 中 的 概念 ， 一 个 资源 池 可 以 对 应 一 个 用 户 〈User) ， 一 个 分 组 (Group) ， 或 者 一 个 队列 (Queue) 。 可 以 认为 资源 池 是 公平 调度 器 中 对 整个 集 
群 资源 的 一 种 划分 管理 方式 。 


4. 队 列 


队列 是 Hadoop 提 出 的 概念 ， 一 个 队列 (Queue) 可 以 由 任意 几 个 分 组 (Group) 和 任意 几 个 用 户 (User) 组 成 。 在 调度 器 中 ， 用 户 在 提交 作业 时 可 以 通过 参数 mapredjob.queue.name 来 指定 提交 
到 哪个 队列 。 


5. 资 源 槽 位 


资源 槽 位 (slot) 是 Hadoop 分 布 式 系统 进行 资源 管理 的 基本 单位 ， 是 集群 计算 资源 的 抽象 化 ， 每 个 资源 槽 位 都 代表 可 以 运行 一 个 任务 (Map 任 务 或 者 Reduce 任 务 ) 。Hadoop 集 群 中 的 每 个 计算 节点 
都 拥有 一 定数 量 的 资源 槽 ， 具 体 数 目 需要 用 户 依据 每 个 节点 的 内 存 、CPU 等 信息 确定 并 配置 ， 默 认 每 个 节点 两 个 资源 槽 位 ， 表 示 每 个 计算 节点 可 以 并 发 运行 两 个 任务 。 


6. 作 业 调 度 和 任务 调度 


Hadoop 的 调度 可 以 看 做 是 一 个 两 级 调度 系统 : 第 一 级 是 作业 调度 ， 也 就 是 作业 选择 ， 由 作业 调度 器 选取 作业 集合 中 的 一 个 等 待 调度 的 作业 ; 第 二 级 就 是 任务 调度 ， 也 就 是 任务 分 配 ， 由 任务 调度 器 在 
第 一 级 选择 的 作业 中 选取 一 个 就 绪 的 任务 来 运行 。 


全 注意 Hadoop 的 调度 系统 也 可 以 认为 是 三 级 调度 队列 选择 、 作 业 选 择 和 任务 选择 ， 其 实 两 级 调度 中 的 作业 调度 就 包括 了 队列 选择 和 作业 选择 ， 因 此 本 质 上 是 一 样 的 ， 仅 仅 是 表述 不 同 而 已 。 


7. 心 跳 


Hadoop 是 一 种 典型 的 主 从 模式 的 分 布 式 系统 ， 主 节点 负责 管理 所 有 从 节点 的 资源 ， 而 这 种 管理 是 通过 主 从 节点 之 间 的 心跳 信息 来 相互 通信 的 ， 也 就 是 从 节点 定时 向 主 节点 发 送 状态 信息 一 一 心跳 信息 
来 报告 自己 当前 的 状况 。 心 跳 信 息 当然 也 包括 当前 从 节点 的 可 用 计算 资源 槽 位 的 数量 等 调度 器 需要 知道 的 信息 ， 正 是 通过 这 样 的 心跳 信息 调度 器 才 可 以 知道 集群 中 每 个 节点 的 空 亲 资源 槽 位 情况 进而 分 配 任 


务 到 从 节点 运行 。 
8. 本 地 化 资源 和 非 本 地 化 资源 


当 一 个 计算 节点 存在 空 闪 的 计算 资源 槽 位 时 ， 待 调度 的 作业 集合 中 有 一 个 作业 中 至 少 存在 一 个 任务 的 待 处 理 数据 存储 位 于 该 计算 节点 上 ， 那 么 就 可 以 称 这 个 计算 节点 是 这 个 作业 的 本 地 化 资源 ， 可 以 简 
称 为 本 地 化 资源 。 

和 本 地 化 资源 类 似 ， 当 一 个 计算 节点 存在 空闲 的 计算 资源 槽 位 时 ， 待 调度 的 作业 集合 中 有 一 个 作业 的 所 有 任务 的 待 处 理 数 据 存储 都 不 在 该 计算 节点 上 ， 那 么 就 称 这 个 计算 节点 是 这 个 作业 的 非 本 地 化 资 
源 ， 简 称 为 非 本 地 化 资源 。 


9. 本 地 化 调度 和 非 本 地 化 调度 


‘二 /一 入 


Hadoop 调 度 器 将 本 地 化 资源 分 配给 相应 的 作业 时 ， 就 称 为 本 地 化 调度 ;而 将 非 本 地 化 资源 分 配给 相应 作业 时 就 是 非 本 地 化 调度 。 显 然 ， 一 个 作业 中 本 地 化 调度 越 多 ， 则 作业 的 响应 时 间 越 短 ， 运 行 交 
率 也 越 高 ; 相反 非 本 地 化 作业 越 多 ， 则 作业 响应 时 间 越 长 ， 同 时 作业 的 运行 效率 越 低 。 
9.1.2 ”作业 调度 流程 


我 们 知道 Hadoop MapReduce 的 组 成 架构 中 包括 两 个 组 件 : JobTracker 和 TaskTracker，JobTracker 用 于 管理 用 户 提交 的 作业 ， 依 据 调度 策略 选择 一 个 作业 任务 交 给 TaskTracker 执 行 并 监控 执行 过 
程 ， 整 体 的 调度 流程 ， 如 图 9-1 所 示 。 


从 图 9-1 中 可 以 清晰 地 看 到 ，Hadoop 的 作业 调度 基本 上 可 分 解 为 以 下 几 个 步骤 : 

步骤 1 首先 是 在 作业 客户 端 创建 一 个 JobClient 对 象 ， 然 后 通过 调用 submitJob0 了 水 数 提交 用 户 作 业 到 JobTracker， 如 图 9-1 中 的 1 所 示 。 

步骤 2 JobTracker 接 收 到 用 户 的 作业 提交 后 会 通过 notify() 函 数 通 知 调度 器 TaskScheduler 有 新 作业 ， 如 图 9-1 中 的 2 所 示 。 

步骤 3 TaskTracker 通 过 heartbeat 心 跳 机 制 向 JobTracker; 报 TaskTracker 的 资源 情况 ，JobTracker 同 时 获取 TaskTrackerStatus 人 信息， 如 果 TaskTracker 的 资源 是 空 闪 的 ， 则 主动 向 JobTracker 请 求 


分 配 任务 ， 如 图 9-1 中 的 3 所 示 。 
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图 9-1 Hadoop 作 业 调 度 流程 示意 图 


步骤 4 ”JobTracker 根 据 对 TaskTracker 资 源 的 管理 情况 ， 请 求 调度 器 TaskScheduler 分 配 作 业 ，TaskScheduler 根 据 对 应 的 资源 情况 和 任务 数 ， 分 配 作 业 列 表 返 回 给 JobTracker， 如 图 9-1 中 的 4f05 所 


步骤 5 JobTracker 接 收 到 分 配 的 作业 列表 ， 再 通过 HeartBeat' 心 跳 信息 将 任务 下 发 给 具体 的 TaskTracker， 最 终 启 动 Task 任 务 完成 作业 ， 如 图 9-1 中 的 6 和 7 所 示 。 


从 上 述 步 骤 结 合 Hadoop 作 业 调 度 流程 示意 图 9-1 就 可 以 更 清晰 地 看 到 JobTracker， 调 度 器 TaskSscheduler 和 TaskTracker 这 三 者 的 逻辑 关系 。 


9.1.3 ”集群 资源 组 织 与 管理 


在 操作 系统 中 CPU 的 计算 资源 是 以 时 间 片 的 形式 组 织 的 并 通过 时 间 片 轮转 调度 达到 CPU 的 有 效 利用 。 与 之 类 似 ，Hadoop 系 统 中 的 作业 调度 则 是 以 计算 槽 位 slot 来 组 织 集群 计算 资源 的 ， 计 算 槽 位 可 以 认 
为 是 Hadoop 集 群 中 计算 资源 的 抽象 ， 是 集群 资源 管理 的 基本 单位 ， 计 算 槽 位 slot 资 源 包 括 两 种 类 型 : Map slot 和 Reduce slot， 其 大 小 分 别 由 表 9-1 中 的 参数 控制 。 


表 9-1 Hadoop 计 算 档 位 数目 控制 参数 


参数 名 称 参数 意义 
mapred.tasktracker.map.tasks.maximum 母 个 tasktracker 同时 运行 的 最 多 Map 任务 数 
mapred.tasktracker.reduce.tasks.maximum 每 :个 tasktracker 同时 运行 的 最 多 Reduce 任务 数 


表 9-1 所 示 的 参数 指定 了 表示 每 个 tasktracker 同 时 运行 的 最 多 任务 数 ， 一 个 任务 数 对 应 一 个 计算 槽 位 slot 资 源 。 在 一 个 集群 中 ，slot 计 算 槽 位 越 多 意味 着 这 个 集群 的 计算 能 力 越 强 ， 但 是 在 配置 集群 的 
slot 数 量 时 需要 考虑 slave 节 点 的 CPU 核心 数量 和 内 存 大 小 ， 一 般 而 言 ， 在 内 存 充足 的 情况 下 一 个 tasktracker 同 时 运行 的 任务 数 ( 模 位 数 ) 等 于 节点 CPU 核心 数 减 1， 减 1 的 目的 主要 是 为 因 失败 而 重 试 执行 任 
务 预 留 的 槽 位 。 


9.1.4 ”队列 控制 和 权限 管理 


在 进一步 学 习 Hadoop 调 度 系统 之 前 有 一 个 非常 重要 的 概念 需要 先 了 解 ， 这 个 概念 就 是 作业 队列 。 在 Hadoop 中 队列 是 调度 系统 中 作业 管理 和 权限 控制 管理 的 基础 ， 一 个 Hadoop 集 群 资源 往往 被 调度 系 


/— 


统 划分 为 一 个 队列 或 者 多 个 队列 ， 每 个 队列 对 应 一 定 的 资源 并 且 具 有 配额 限制 ， 每 个 用 户 的 作业 只 能 提交 到 一 个 队列 运行 ， 同 时 每 个 用 户 可 以 拥有 多 个 队列 的 提交 权限 。 


在 Hadoop 中 ， 用 户 权限 管理 是 基于 Linux 系 统 中 用 户 权限 管理 的 ， 一 般 Linux 中 的 用 户 就 是 Hadoop 中 的 用 户 ，Linux 中 的 分 组 也 对 应 Hadoop 的 分 组 。 因 此 Hadoop 的 队列 控制 和 权限 管理 是 建立 在 


/一 一 一 


Linux 的 用 户 权 限 管理 基础 上 的 。 通 过 队列 可 以 将 Hadoop 用 户 和 用 户 组 (也 是 Linux 用 户 和 用 户 组 ) 与 相应 的 队列 建立 映射 关系 ， 进 而 以 队列 为 基础 结合 Hadoop ACL(Access Control List) 功 能 进行 高 级 别 
的 Hadoop 作 业 权限 控制 。 


Hadoop 的 队列 需要 在 配置 文件 mapred-site.xml 中 定义 并 启动 ACL 功 能 ， 假 定 我 们 要 将 集群 划分 为 两 个 队列 : queue_A 和 queue_B， 并 启动 Hadoop 的 ACL 功 能 ， 配 置 代码 如 下 : 


<property> 
<name>mapred.acls.enabled</name> 
<value>true</value> 
<description> 启 用 权限 管理 </description> 
</property> 
<property> 
<name>mapred.queue.names</name> 
<value>queue A, queue B</value> 
<description> 设 置 Hadoop 队 列 ， 队 列 名 之 间 以 逗号 分 隔 </description> 
</property> 


在 上 述 配 置 代码 中 由 于 启用 了 Hadoop ACL 功 能 ， 因 此 还 需要 在 Hadoop ACL 的 控制 配置 文件 mapred-queue-acls.xml 中 进行 权限 控制 的 配置 。 假 定 我 们 需要 让 所 有 的 用 户 都 有 向 队列 queue_A 中 提交 
作业 的 权限 ， 只 有 用 户 user_nuoline 和 用 户 分 组 group_work 有 权限 向 队列 queue_B 中 提交 作业 权限 ， 同 时 用 户 search 具 有 管理 队列 queue _A 的 权限 ， 这 时 配置 mapred-queue-acls.xm| 的 代码 如 下 : 


<configuration> 

<property> 
<name>mapred.queue.queue A.acl-submit-job</name> 
<value>* </value> 
<description> '*' 表 示人 允许 所 有 用 户 向 队列 queue A 提交 作业 
</description> 

</property> 

<property> 
<name>mapred.queue.queue B.acl-submit-job</name> 
<value>user nuoline group work</value> 
<description> 表 示人 允许 用 户 user _nuoline 和 用 户 组 group _work 癌 队列 queue B 提 交 作 业 
</description> 

</property> 

<property> 
<name>mapred.queue.queue A.acl-administer-jobs</name> 
<value>search </value> 
<description> 配 置 用 户 search 具 有 管理 队列 queue A 的 权限 
</description> 

</property> 


9.1.5 ”插件 式 调 度 框架 


最 初 的 Hadoop 版 本 中 仅 有 FIFO 调 度 算法 ， 而 且 Hadoop 系 统 只 支持 和 JobTracker 逻 辑 混合 在 一 起 的 单一 调度 器 ， 这 种 设计 实现 简单 ， 并 且 稳定 可 靠 ， 非 常 适合 初期 的 单 用 户 批 处 理 任务 。 例 如 网 页 倒 
排 索引 构建 ， 日 志 挖掘 等 任务 。 然 而 随 着 Hadoop 使 用 的 通用 化 以 及 用 户 的 增多 ， 往 往 多 个 用 户 要 共享 集群 资源 ， 从 而 使 得 FIFO 调 度 不 能 满足 多 用 户 的 任务 调度 需求 ， 而 调度 器 又 与 JobTracker 紧 耦合 ， 使 


得 调度 算法 的 修改 和 维护 成 本 较 高 。 


为 了 解决 上 述 问 题 ， 同 时 增加 Hadoop 调 度 的 灵活 性 ，Hadoop 在 调度 设计 中 引入 了 可 插入 式 调度 框架 设计 (HADOOP-3412) ， 调 度 器 从 JobTracker 的 逻辑 代码 中 分 离 出 来 ， 变 为 一 个 可 插入 式 的 模 
块 ， 在 JobTracker 中 加 载 并 调用 。 这 种 插入 式 的 调度 框架 主要 是 通过 TaskScheduler 调 度 基 类 来 实现 的 。TaskScheduler 主 要 定义 了 四 种 方法 ， 代 码 如 下 : 


// 局 动 任务 调度 器 
public void start () throws IOException f 
// do nothing 


} 
// 停止 任务 调度 器 
public void terminate () throws IOException { 
// do nothing 


} 
// 任务 分 配 算法 函数 接口 
public abstract List<Task> assignTasks (TaskTracker taskTracker) 
throws IOException; 
// 获取 指定 队列 名 的 JobInProgress 集 合 
public abstract Collection<JobInProgress> getyJobs (String queueName); 


在 TaskSscheduler 主 要 方法 中 start() 函 数 用 于 启动 任务 调度 器 ， 包 括 调度 器 的 初始 化 工作 和 必要 对 象 的 构造 ; terminate() 函 数 用 于 停止 调度 器 ， 包 括 注销 在 start(0 阶 段 内 创建 的 线程 和 对 象 ; 抽象 函数 
assignTasks(TaskTracker taskTracken 是 调度 器 实现 中 最 关键 的 函数 接口 ， 其 返回 给 TaskTracker 节 点 一 个 要 分 配 调度 的 任务 列表 ， 调 度 器 的 核心 任务 分 配 调度 算法 就 是 在 这 个 函数 中 实现 的 ， 用 户 自 定 义 
实现 调度 器 的 重点 也 是 实现 这 个 国 数 ; getJobs(String queueName) 函 数 是 根据 队列 名 得 到 相应 的 JoblnProgress 对 象 集合 ， 用 于 配合 调度 器 的 调度 工作 。 

在 这 种 可 揪 入 框架 下 ， 任 何 Hadoop 上 的 调度 器 都 必须 继承 TaskScheduler 基 类 ， 并 实现 这 四 个 方法 ， 然 后 通过 在 配置 文件 napred-site.xml 中 的 mapredJjobtracker.taskSscheduler 参 数 属性 值 来 指定 
自己 的 调度 器 。 以 第 三 方 调度 器 公平 调度 器 FairScheduler 为 例 ， 公 平 调度 器 的 实现 类 FairScheduler 就 继承 了 TaskScheduler 基 类 ， 并 实现 了 相应 的 方法 ， 然 后 用 户 可 以 在 mapred-site.xml 中 进行 以 下 配 


置 : 


<property> 
<name>mapred.jobtracker.taskScheduler</name> 
<value>org.apache.hadoop.mapred.FairScheduler</value> 


</property> 


通过 上 述 配置 ， 参 数 mapred.jobtracker.taskScheduler 就 可 以 在 Hadoop 中 启用 公平 调度 器 FairScheduler (当然 使 用 的 公平 调度 器 配置 还 需要 结合 fair-scheduler.xm| 配 置 文件 等 ) 。 


9.2 FIFO 调度 器 


FIFO 是 Hadoop 默 认 的 调度 器 ， 其 调度 策略 简单 ， 容 易 实现 ， 并 且 调 度 效率 比较 高 ， 虽 然 在 实际 的 商业 生产 环境 中 很 少 直接 使 用 ， 但 是 从 了 解 和 学 习 Hadoop 调 度 原 理 和 实现 角度 来 讲 ，FIFO 调 度 器 是 
一 个 非常 经 典 的 调度 器 ， 是 学 习 Hadoop 调 度 的 一 个 很 好 的 起 点 和 切入 点 。 


9.2.1 基本 调度 策略 


类 似 于 Linux 操 作 系统 中 的 FIFO 先 进 先 出 进程 调度 算法 ，Hadoop FIFO 调 度 器 的 调度 策略 是 将 用 户 提交 的 作业 按照 提交 先后 顺序 统一 放 在 一 个 队列 中 ， 然 后 依据 先后 顺序 和 优先 级 被 依次 调度 执行 ， 整 
体 上 遵循 先进 先 出 的 基本 调度 原则 ， 其 调度 策略 如 图 9-2 所 示 。 


JobQueueTaskScheduler 


, Jobtracker 


Tasktracker 


a) 


JobQueueTaskScheduler 


Jobtracker ) Be 


Tasktracker 


b ) 
JobQueueTaskScheduler 


‘Jobtracker Job1 


图 9-2 ”FIFO 调 度 策略 示意 图 


图 9-2 描 述 了 FIFO 调 度 器 的 调度 策略 ， 总 的 来 说 FIFO 调 度 遵守 以 下 原则 : 


:所 有 用 户 提 交 的 作业 会 统一 按照 提交 的 先后 顺序 排 在 一 个 队列 中 。 
:支持 优先 级 ， 包 括 VERY HIGH、HIGH、NORMAL、LOW、VERY LOW。 
-在 优先 级 相同 的 情况 下 ， 按 照 先 来 先 服务 的 模式 调度 执行 。 

-在 优先 级 不 同 的 情况 下 ， 优 先 级 高 的 作业 先 调 度 执 行 。 


FIFO 调 度 可 以 分 为 图 9-2 中 的 三 种 基本 情况 。 


第 1 种 : 队列 中 只 有 一 个 作业 时 直接 调度 执行 ， 见 图 9-1 中 的 图 a， 队 列 中 只 有 Job1， 则 调度 器 JobQueueTaskScheduler 直 接 将 Job1 调 度 分 配给 集群 的 计算 节点 Tasktracker 执 行 ; 第 2 种 : 用 户 在 Job1 
之 后 又 先后 提交 了 Job2 和 Job3， 而 Job2 和 Job3 的 优先 级 是 相同 的 ， 这 时 在 Job1 运 行 完 成 之 后 按照 提交 顺序 先后 调度 执行 Jop2，Job2 执 行 完成 之 后 再 调度 执行 Job3; 第 3 种 情况 : 用 户 在 Job1 之 后 又 先后 提 
交 了 Job2 和 Job3， 而 Job3 的 优先 级 比 Job2 的 优先 级 高 ， 那 么 在 Job1 运 行 完成 之 后 先 调度 执行 Job3， 然 后 调度 执行 Job2。 


FIFO 调 度 的 调度 逻辑 设计 简洁 ， 对 于 单 用 户 集群 系统 来 讲 比较 适合 ， 同 时 系统 利用 率 比 较 高 ， 响 应 时 间 也 很 得， 但 是 对 于 多 用 户 共享 集群 资源 的 情况 下 就 会 出 现 不 能 区 别 不 同 用 户 、 不 同 作业 类 型 的 情 
况 ， 例 如 第 一 个 用 户 提交 的 作业 并 不 重要 ， 但 是 长 时 间 执 行 它 使 得 后 面相 对 重要 的 作业 不 能 及 时 调度 ， 这 样 的 系统 就 类 似 于 最 早 的 单 用 户 操作 系统 ， 不 能 使 整个 集群 的 资源 得 到 有 效 的 利用 ， 不 符合 云 计 算 
的 资源 共享 特点 。 因 此 在 商业 生产 环境 下 基本 不 使 用 FIFO 调 度 器 ， 但 是 其 作为 一 个 典型 的 调度 器 还 是 值得 学 习 和 深入 讨论 的 。 


9.2.2 ”FIFO 实 现 分 析 


上 面 对 FIFO 的 调度 策略 进行 了 分 析 讲 解 ，Hadoop 系 统 的 默认 调度 器 便 是 FIFO 调 度 器 ， 核 心 实现 类 是 org.apache.hadoop.mapred.JobQueueTaskScheduler， 这 个 类 也 就 是 FIFO 的 入 口 ， 同 时 还 有 两 
个 很 重要 的 辅助 类 ， 分 别 是 负责 维护 队列 的 JobQueuejJoblnProgressListener 类 和 负责 作业 初始 化 的 EagerTasklnitializationListener 类 。 


从 JobQueueTaskSscheduler 类 图 9-3 中 可 以 看 到 ，JobQueueTaskScheduler 类 继 了 TaskSscheduler 类 ，JobQueueTaskSscheduler 类 的 私有 变量 类 对 象 jobQueueJoblnProgressListener 用 来 维护 和 管 
理 用 户 的 作业 ， 包 括 按照 优先 级 对 用 户 提交 的 作业 进行 排队 等 ; 私有 变量 类 对 象 EagerTasklnitializationListener 主 要 用 于 初始 化 作业 ， 包 括 用 户 作 业 Map 和 Reduce 任 务 的 划分 以 及 初始 化 等 工作 。 


<<Unresolved Class>> 
TaskScheduler 


MIN_ CLUSTER SIZE FOR PADDING :nt = 
上 LOG : Log = LogFactory.getLog(JobQueueTaskScheduler.class) 


# jobQueueJobInProgressListener : JobQueueJobInProgressListener 
eagerTaskInitializationListener : EagerTaskInitializationListener 
padFraction : float 
<<Constructor>> JobQueueTaskScheduler () 

start () : void 

terminate () : VOld 

setConf (Configuration conf) : void 

assignTasks (TaskTracker task Tracker) : List<Task> 
exceededPadding (boolean isMapTask, : boolean 

ClusterStatus clusterStatus, 

Int maxTaskTrackerS lots) 

getJobs (String queueName) : Collection<JobInProgress> 


图 9-3 JobQueueTaskScheduler 类 图 


当 JobTracker 给 TaskTracker 分 配 任 务 时 便 会 调用 JobQueueTaskScheduler 的 assignTasks(TaskTracker taskTracker) 方 法 给 TaskTracker 分 配 任 务 。JobQueueTaskScheduler 实 现 了 基 类 
TaskScheduler 中 的 assignTasks(TaskTracker taskTracken 核 心 方法 ，FIFO 的 调度 策略 便 是 在 这 个 函数 中 实现 的 。 


9.2.3 FIFO 初始 化 与 停止 


JobQueueTaskscheduler 通 过 start(0 函 数 执行 FIFO 调 度 器 的 初始 化 工作 以 启动 FIFO 调 度 器 ， 实 现代 码 如 下 : 


public synchronized void start() throws IOException 1{ 
super.start (); 
// 注册 jobQueueJobInProgressListener 
taskTrackerManager .addJobInProgressListener( 
jobQueueJobInProgressListener); 
// 初始 化 eagerTaskInitializationListener 
eagerTaskIinitializationListener.setTaskTrackerManager ( 
taskTrackerManager); 
/ 启动 eagerTaskInitializationListener 线 程 
eagerTaskInitializationListener.start (); 
// 注册 eagerTaskInitializationListener 
taskTrackerManager .addJobInProgressListener( 
eagerTaskInitializationListener); 


从 上 述 start() 函 数 的 实现 可 以 看 到 ， 首 先 向 TaskTrackerManager 注 册 jobQueuejJobln-ProgressListener 对 象 来 维护 管理 用 户 作 业 ; 然后 通过 设置 TaskTrackerManager 来 初始 化 
EagerTasklnitializationListener 对 象 并 启动 该 线程 ; 最 后 向 TaskTrackerManager 注 册 eagerTask-lnitializationListener 对 象 来 完成 FIFO 的 初始 化 和 启动 。 


停止 FIFO 调 度 器 则 通过 函数 terminate() 来 完成 ， 核 心 代 码 如 下 : 


public synchronized void terminate () throws IOException { 

if (jobQueueJobInProgressListener != null) { 

taskTrackerManager .removeJobInProgressListener( 
jobQueueJobInProgressListener); 


Ee 


f (eagerTaskIinitializationListener != null) { 
taskTrackerManager .removeJobInProgressListener ( 
eagerTaskInitializationListener); 
eagerTaskIinitializationListener.terminate () ， 
} 


super.terminate () ; 


} 


从 上 述 函 数 terminate() 的 实现 可 以 看 到 ， 在 停止 调度 器 时 主要 完成 两 个 操作 : 第 一 个 就 是 注销 在 启动 阶段 维护 用 户 作业 队列 的 jobQueueJoblnProgressListener; 第 二 个 就 是 终止 FIFO 调 度 器 的 作业 初 


始 化 线程 eagerTasklnitializationListener。 


9.2.4 作业 监听 控制 


调度 器 会 对 用 户 提交 的 作业 进行 监听 控制 ， 一 个 重要 的 监听 基 类 就 是 JoblnProgressListener 抽 象 类 ， 这 个 类 定义 了 三 个 重要 方法 ， 代 码 如 下 : 


// 添加 作业 到 调度 队列 

public abstract void jobAdded (JobInProgress job) throws IOException; 
// 从 调度 队列 中 移 除 作业 

public abstract void jobRemoved (JobInProgress job); 

// 更 新 作业 调度 信息 

public abstract void jobUpdated (JobChangeEvent event); 


通过 这 三 个 方法 就 可 以 方便 地 实现 对 用 户 提交 的 作业 进行 调度 管理 ， 在 FIFO 调 度 器 中 有 两 个 JoblnProgressListener 实 现 ， 分 别 为 维护 作业 队列 的 jobQueueJoblnProgressListener 和 负责 初始 化 的 
EagerTasklnitializationListener。 在 用 户 将 作业 提交 到 JobTracker 之 后 ，JobTracker 就 会 调用 两 个 JoblnProgressListener 对 象 的 jobAdded (JoblnProgress job) 等 三 个 方法 来 对 提交 的 作业 进行 监听 控 
制 ， 下 面 分 别 进 行 分 析 。 


1. 作 业 添 加 


EagerTasklnitializationListener 会 在 后 台 启 动 了 一 个 初始 化 作业 线程 ， 这 个 初始 化 线程 每 隔 一 段 时 间 从 它 自己 维护 的 joblnitQueue 中 取出 第 一 个 作业 job， 并 调用 TaskTrac-kerManagerinitUob(ob) 
函数 来 初始 化 作业 。joblnitQueue 也 是 按照 优先 级 从 高 到 低 先进 先 出 排序 的 。 


EagerTasklnitializationListener 对 象 通过 调用 obAdded() 函 数 就 可 以 将 作业 加 到 joblnitQueue 初 始 化 队列 中 ， 也 就 是 说 ， 作 业 提 交 到 后 ， 几 乎 马上 就 会 被 初始 化 ， 为 了 保持 与 调度 器 一 
致 ，EagerTasklnitializationListener 也 按照 优先 级 FIFO 的 方式 维护 joblnitQueue 队 列 ， 这 样 做 的 目的 是 为 了 避免 作业 可 以 被 调度 时 还 未 初始 化 的 情况 。 


JobQueuejJoblnProgressListener 对 象 会 维护 一 个 jobQueue 调 度 队列 ， 通 过 调用 obAdded() 函 数 将 新 作业 加 到 jobQueue 队 列 中 。jobQueue 是 按照 作业 优先 级 和 开始 时 间 排 序 的 。 
2. 作 业 更 新 


当 监 听 到 作业 状态 改变 时 ，JobTracker 就 会 调用 两 个 JoblnProgressListener 对 象 的 jobUpdated() 接 口 来 更 新 作业 状态 。 


如 果 作 业 的 优先 级 或 者 开始 时 间 发 生变 化 ，EagerTasklnitializationListener 通 过 调用 jobUpdated() 函 数 会 对 joblnitQueue 重 新 排序 。 同 时 JobQueueJoblnProgressListener 通 过 调用 jobUpdated() 会 
对 调度 队列 jobQueue 重 新 排序 。 


如 果 作业 完成 (SUCCEEDEDIIFAILEDIIKILLED)， 则 通过 调用 obCompleted0 浮 数 将 作业 从 调度 队列 obQueue 中 删除 ， 因 为 调度 器 不 再 需要 这 个 作业 的 信息 。 
3. 作 业 移 除 


作业 运行 完成 之 后 就 会 从 JobTracker 的 内 存 中 被 删除 ， 与 此 同时 JobTracker 通 过 调用 两 个 JoblnProgressListener 对 象 的 jobRemoved() 函 数 将 作业 信息 移 除 。 


EagerTasklnitializationListener 通 过 调用 其 jobRemoved() 方 法 就 可 以 将 作业 从 初始 化 队列 joblnitQueue 中 删除 ， 而 JobQueuejJoblnProgressListener 的 jobRemoved() 不 做 任何 事情 ， 因 为 作业 完成 
时 jobCompleted() 方 法 已 经 将 作业 从 调度 队列 obQueue 中 删除 了 。 


加 注意 EagerTaskInitializationListener 其 实 也 不 需要 这 么 做 ， 因 为 初始 化 作业 的 时 候 已 经 删除 了 ， 不 过 这 样 做 比较 保险 ， 防 止 还 未 初始 化 的 作业 被 杀 死 。 


9.2.5 ”任务 分 配 算法 


FIFO 的 任务 分 配 算法 具体 是 在 JobQueueTaskScheduler 类 的 assignTasks(TaskTracker taskTracker) 函 数 中 实现 的 ，FIFO 调 度 器 在 分 配 任 务 时 会 尝试 一 次 心跳 分 配 多 个 Map 任 务 和 最 多 一 个 Reduce 任 
同时 在 计算 TaskTracker 最 大 能 接受 的 任务 数 时 会 考虑 集群 的 负载 情况 ， 一 次 分 配 多 个 Map 任 务 后 tasktracker 的 负载 不 会 高 于 平均 负载 。FIFO 任 务 分 配 算法 主要 实现 步骤 如 下 : 


注 


步骤 1 获取 当前 taskTracker 的 Map 和 Reduce 数 量 信 息 ， 其 核心 代码 如 下 : 


// 获取 当前 taskTracker 的 Map 资 源 槽 位 容量 
inal int trackerMapCapacity = taskTrackerStatus.getMaxMapSlots () ; 
前 taskTracker 的 Redquce 资 源 槽 位 容量 

t trackerReduceCapacity = taskTrackerStatus.getMaxReduceSlots () ， 

// 获取 当前 taskTracker 正 在 运行 的 Map 数 量 
月 


trackerRunningMaps = = taskTrackerStatus.countMapTasks () ， 
4 前 taskTracker 正 在 运行 的 Reduce 数 量 
trackerRunningReduces = taskTrackerStatus.countReduceTasks () 


步骤 2 计算 还 需要 运行 的 Map 和 Reduce 的 数量 (也 就 是 处 于 正在 运行 状态 和 挂 起 状态 的 ) ， 核 心 代码 如 下 : 


// 正在 运行 状态 和 挂 起 状态 的 Map 数 量 

int remainingReduceLoad = 0; 

// 正在 运行 状态 和 挂 起 状态 的 Reduce 数 量 

int remainingMapLoad = 0; 

synchronized (jobQueue) { 

for (JobInProgress job : jobQueue) { 


if (job.getStatus() .getRunState () == JobStatus.RUNNING) { 
remainingMapLoad += (job.desiredMaps() - job.finishedMaps ()); 
if (job.scheduleReduces()) { 
remainingReduceLoad += 
(job.desiredReduces() - job.finishedReduces ()); 
} 
} 
} 
如 上 述 代码 的 计算 逻辑 ， 在 计算 还 需要 运行 的 Map 和 Reduce 任 务 数量 时 会 遍历 FIFO 的 作业 队列 jobQueue， 然 后 以 作业 的 总 任务 数 (Map 或 Reduce) 减 去 已 经 完成 的 任务 数 (Map 或 Reduce) ， 从 


而 分 别 得 到 还 需要 运行 的 Map 任 务 数 量 emainingMapLoad 和 还 需要 运行 的 Redcue 任 务 数量 remainingReduceLoad，remainingMapLoad 和 remainingReduceLoad 也 就 是 待 调度 的 Map 和 Reduce 任 务 


步骤 3 ”计算 Map 和 Reduce 的 负载 因子 ， 计 算 如 下 : 


double mapLoadFactor = 0.0; 

f (clusterMapCapacity > 0) { 

// 计算 Map 负 载 因子 

mapLoadFactor = (double) remainingMapLoad/clusterMapCapacity; 


P- 


double reduceLoadFactor = 0.0; 
if (clusterReduceCapacity > 0) 1 
// 计算 Reduce 负 载 因子 
reduceLoadFactor = (double) remainingReduceLoad / clusterReduceCapacity; 


} 


负载 因子 代表 整个 集群 的 负载 情况 ， 如 上 述 代码 的 计算 逻辑 ， 在 计算 负载 因子 时 以 所 有 作业 待 调度 Map 任 务 数 除 以 集群 中 的 Map 容 量 来 得 到 Map 的 负载 因子 ，Reduce 的 计算 与 此 类 似 。 很 明显 ， 负 载 
因子 越 大 集群 负载 越 高 ， 随 着 任务 的 执行 集群 负载 会 减 小 ， 而 用 户 也 会 不 断 地 向 队列 中 提交 作业 ， 这 样 集群 整个 负载 因子 又 会 增加 ， 因 此 在 实际 的 集群 环境 中 比较 高 效 的 状态 是 负载 因子 维持 在 一 个 动态 的 


范围 之 内 ， 既 能 保证 作业 按时 执行 完成 又 能 保证 整个 集群 的 资源 利用 率 较 高 。FIFO 调 度 器 正 是 通过 负载 因子 mapLoadFactor 和 reduceLoadFactor 来 调节 任务 分 配 的 ， 使 得 每 次 给 TaskTracker 分 配 任务 时 
集群 的 最 终 负 载 都 大 致 相同 ， 从 而 避免 集群 负载 不 均衡 的 情况 发 生 。 


步骤 4 计算 tasktracker 当 前 Map 容 量 以 及 最 大 可 分 配 Map 任 务 数 ， 然 后 调度 分 配 Map 任 务 。 


tasktracker 当 前 Map 容 量 的 计算 方法 如 下 : 


final int trackerCurrentMapCapacity = 
Math.min( (int)Math.ceil (mapLoadFactor * trackerMapCapacity), 
trackerMapCapacity); 


在 计算 时 取 配 置 的 Map 容 量 乘 以 负载 因子 ， 然 后 取 乘 积 值 和 Map 容 量 trackerMapCapacity 这 两 者 的 最 小 值 作为 tasktracker 当 前 的 Map 容 量 。 


然后 计算 最 大 可 分 配 的 Map 任 务 数 ， 也 就 是 最 大 可 调度 的 Map 槽 位 数 ， 使 用 tasktracker 当 前 的 Map 容 量 trackerCurrentMapCapacity 减 去 正在 运行 的 Map 数 量 ， 方 法 如 下 : 
availableMapSlots = trackerCurrentMapCapacity - trackerRunningMaps; 


按照 这 样 计 算得 到 的 最 大 可 分 配 Map 任 务 数 来 调度 分 配 Map 任 务 就 不 会 超过 tasktracker 的 平均 负载 。 下 一 步 就 是 按照 这 个 数量 党 试 分 配 Map 任 务 ， 调 度 器 会 遍历 FIFO 队 列 jobQueue 中 每 一 个 处 于 运 
行 态 running 的 作业 job 来 进行 分 配 Map 任 务 ， 在 分 配 任务 时 还 会 计算 是 否 超过 预 留 槽 位 数 界限 padding， 通 过 布尔 变量 exceededPadding 来 判断 ， 具 体 计算 时 会 调用 内 部 函数 exceededPadding(boolean 
isMapTask, ClusterStatus clusterStatus，int maxTaskTrackerSlots) 来 判断 ， 核 心 代码 如 下 : 


// 计算 预 留 权 位 数 界限 
padding = Math.min (maxTaskTrackerSlots, 
(int) (totalNeededTasks * padFraction)); 
// 判断 是 否 超过 预期 槽 位 数 界限 
if (totalTasks + padding > totalTaskCapacity) { 
exceededPadding = true; 
break; 


上 述 计 算 逻 辑 中 变量 padding 就 是 预 留 槽 位 数 。 预 留 的 槽 位 数 主要 是 给 那些 失败 重 试 任务 作为 备用 计算 槽 位 使 用 的 。maxTaskTrackerSlots 是 集群 最 大 槽 位 数 ; totalNeededTasks 是 集群 总 共 需 要 待 调 
度 的 任务 槽 位 数 ; padFraction 是 一 个 调节 因子 ， 也 是 用 户 可 配置 参数 选项 ， 通 过 Hadoop 调 度 参数 mapred.jobtracker.taskalloc.capacitypad 来 获取 ， 默 认 值 为 0.01。 

变量 totalTasks 是 集群 中 总 的 任务 数 ，totalTaskCapacity 是 集群 中 总 的 计算 槽 位 数 ， 显 然 ， 当 集群 中 总 任务 数 加 上 预 留 模 位 数 大 于 或 者 等 于 集群 中 总 的 计算 槽 位 数 时 就 将 布尔 变量 exceededPadding 赋 
值 为 true， 也 就 是 超过 了 预 留 槽 位 数 ， 在 这 种 情况 下 就 会 停止 向 TaskTracker 分 配 任务 。 

整个 步骤 4 的 任务 调度 分 为 以 下 两 点 : 

1) 优先 分 配 位 于 本 地 节点 或 者 本 地 机 架 上 的 Map 任 务 ， 通 过 调用 作业 函数 job.obtain-NewNodeOrRackLocalMapTask() 来 获取 本 地 节点 或 者 本 地 机 架 任务 ， 如 果 非 空 就 加 到 分 配 列表 中 ， 在 加 入 分 配 
列表 之 后 会 进行 exceededMapPadding 判 断 ， 如 果 超 出 了 集群 预 留 构 位 数 ， 则 不 再 给 tasktracker 分 配 Map 任 务 ， 否 则 从 头 开 始 分 配 更 多 的 Map 任 务 ， 但 是 不 能 超过 tasktracker 最 大 可 用 槽 位 数 。 核 心 代码 
如 下 : 


// 优先 尝试 分 配 位 于 本 地 节点 或 者 本 地 机 架 上 的 Map 任 务 
Task 七 = null; 
// 获取 本 地 节点 或 者 本 地 机 架 上 的 Map 任 务 


t = job.obtainNewNodeOrRackLocalMapTask (taskTrackerStatus, 
numITaskTrackers, 
taskTrackerManager .getNumberOfUniqueHosts () ) ， 

if (t != null) 1 
assignedTasks.add (t); // 添加 Map 任 务 到 分 配 列 表 


++numLocalMaps; 遇 
if (exceededMapPadding) {  // 超出 exceedeqMapPadqqing 停 止 分 配 
break scheduleMaps; 


} 
break; 


2) 然后 分 配 一 个 非 本 地 节点 的 Map 任 务 ， 通 过 调用 函数 job.obtainNewNonLocalMapTask0 来 获取 一 个 非 本 地 节点 的 Map 任 务 ， 如 果 非 空 就 加 到 分 配 列表 ， 然 后 不 再 分 配 非 本 地 节点 的 Map 任 务 。 这 
里 最 多 分 配 一 个 非 本 地 节点 的 Map 任 务 是 为 了 防止 本 地 tasktracker 从 别 的 tasktracker 拉 取 Map 任 务 ， 因 为 非 本 地 节点 的 Map 任 务 越 少 越 好 ， 没 有 则 更 高 效 ， 这 是 源 于 Hadoop 遵 循 的 是 移动 计算 到 数据 而 
不 是 移动 数据 到 计算 的 基本 原则 。 核 心 代码 如 下 : 


// 获取 一 个 非 本 地 节点 的 Map 任 务 来 分 配 
t = job.obtainNewNonLocalMapTask (taskTrackerStatus, 
numITaskTrackers, 
taskTrackerManager .getNumberOfUniqueHosts () ) ， 
if (t != null) ({ 
assignedTasks .aqd (t); 
++numNonLocalMaps; 
// 最 多 只 分 配 一 个 非 本 地 节点 的 Map 任 务 ， 然 后 停止 分 配 
break scheduleMaps; 


Me 


步骤 5 ”计算 tasktracker 当 前 Reduce 容 量 以 及 最 大 可 分 配 的 Reduce 任 务 数 ， 然 后 调度 分 配 Reduce 任 务 。tasktracker 当 前 Reduce 容 量 的 计算 方法 如 下 : 


final int trackerCurrentReduceCapacity = Math.min ( 
(int)Math.ceil (reduceLoadFactor * trackerReduceCapacity), 
trackerReduceCapacity); 


变量 reduceLoadFactor 是 前 面 步骤 中 计算 的 Reduce 的 负载 因子 ，trackerReduceCapacity 是 集群 tasktracker 的 Reduce 模 位 数 容量 ， 取 两 者 的 最 小 值 作 为 集群 当前 的 Reduce 模 位 数 容量 。 然 后 依据 集 
群 当 前 Reduce 模 位 数 来 计算 最 大 可 分 配 Reduce 的 任务 模 位 数 ， 计 算 方法 如 下 : 


final int availableReduceSlots = 
Math.min( (trackerCurrentReduceCapacity - trackerRunningReduces), 1); 


变量 trackerRunningReduces 是 集群 tasktracker 正 在 运行 的 Reduce 任 务 数 ， 由 于 是 取 最 小 值 ， 因 此 最 大 可 分 配 Reduce 的 任务 槽 位 数 availableReduceSlots 的 最 大 值 为 1， 也 就 是 说 一 次 心跳 最 多 分 配 
一 个 Reduce 任 务 数 。 


同样 会 调用 函数 exceededPadding(false，clusterStatus，trackerReduceCapacity) 来 判断 是 否 超过 预 留 的 Reduce 模 位 数 ， 如 果 超 过 了 则 在 每 次 分 配 Redcue 任 务 数 后 停止 再 分 配 。 和 Map 的 任务 分 配 
类 似 ， 调 度 器 会 遍历 队列 obQueue， 针 对 每 一 个 处 于 运行 状态 的 RUNNING 作 业 来 分 配 Reduce 任 务 。 分 配 逻 辑 如 下 。 


1) 获取 一 个 Redcue 任 务 ， 将 其 加 入 分 配 列表 ， 其 然后 停止 分 配 ， 其 核心 代码 如 下 : 


// 获取 一 个 Redquce 任 务 
Task t = job.obtainNewReduceTask (taskTrackerSstatus, 
numlTaskTrackers, 
taskTrackerManager .getNumberOfUniqueHosts () ) ， 
if (t != null) { 


assigneqTasks .aqq(t) ; // 加 入 到 分 配 列表 
break; // 跳出 循环 ， 停 止 分 配 


2) 判断 是 否 超过 Redcue 预 留 槽 位 数 的 界限 ， 通 过 已 经 计算 好 的 布尔 变量 exceeded-ReducePadding 来 判断 ， 如 果 超 过 则 停止 分 配 ; 如 果 没 有 超过 则 尝试 下 一 个 作业 job。Redcue 预 留 槽 位 数 的 目的 和 
Map 预 留 槽 位 数 的 目的 一 样 ， 主 要 是 为 了 运行 失败 后 执行 Reduce 重 试 任务 而 留 的 计算 槽 位 ， 还 有 就 是 为 一 些 特殊 任务 等 预 留 槽 位 。 


9.2.6 配置 与 使 用 
FIFO 调 度 器 是 Hadoop 目 前 版 本 中 的 默认 调度 器 ， 一 般 不 需要 特别 配置 ， 如 果 从 别 的 调度 器 重新 配置 为 FIFO 调 度 器 ， 则 直接 编辑 Hadoop 的 配置 文件 mapred-site.xml， 代 码 如 下 : 


<property> 
<name>mapred.jobtracker.taskScheduler</name> 
<value>org.apache.hadoop.mapred.JobQueueTaskScheduler</value> 
</property> 


在 修改 配置 文件 后 还 需要 将 修改 的 配置 文件 napred-site.xml 同 步 分 发 到 集群 中 的 所 有 节点 ， 然 后 重启 集群 或 者 至 少 重启 MapReduce。 


9.3 ”公平 调度 器 


公平 调度 器 ， 也 就 是 FairScheduler， 是 由 FaceBook 开 发 并 向 开源 社区 贡献 的 Hadoop 多 用 户 调度 器 ， 目 前 已 经 集成 到 Hadoop 的 社区 版 本 和 各 种 发 行 版 中 。 这 种 调度 器 实现 了 类 似 Linux Fair Sharing 
调度 的 功能 ， 可 以 让 所 有 作业 基本 上 能 公平 共享 整个 集群 资源 。 


9.3.1 产生 背 


时 


Hadoop 默 认 的 内 置 调度 器 为 FIFO。FIFO 虽 然 也 支持 五 种 优先 级 ， 但 是 用 户 提交 的 所 有 作业 统一 提交 到 一 个 队列 进行 排序 ， 根 据 作 业 优 先 级 和 先后 顺序 进行 排队 后 再 调度 。 这 种 调度 策略 对 于 单 用 户 批 
处 理应 用 非常 适合 ， 同 时 实现 简单 、 调 度 效率 高 ， 但 是 在 实际 的 商业 系统 中 为 了 提高 集群 资源 的 利用 率 ， 往 往 多 个 用 户 (甚至 成 日 上 干 ) 共享 一 个 大 的 集群 ， 而 用 户 的 作业 类 型 也 不 仅仅 是 批 处 理应 用 ， 可 
能 会 包含 以 下 三 种 作业 类 型 。 
. 批 处 理 作业 : 一 般 作业 运行 时 长 ， 例 如 机 器 学 习 ， 数 据 挖 掘 等 任务 。 
.生产 性 作业 : 这 种 作业 往往 要 求 有 一 定 的 资源 保证 ， 需 要 在 规定 的 时 间 内 执行 完成 ， 例 如 数值 计算 、 统 计 分 析 等 。 
-交互 式 作业 : 这 种 作业 一 般 要 求 可 以 及 时 返回 执行 结果 ， 例 如 大 数据 的 SOL 查询 等 HIVE 等 交互 式 作业 )。 


FIFO 调 度 器 并 不 支持 多 个 队列 ， 也 不 支持 多 个 用 户 共享 集群 ， 这 样 就 造成 集群 资源 利用 率 过 低 ， 对 于 不 同类 型 的 作业 不 能 保证 公平 调度 等 问题 ， 公 平 调度 器 FairScheduler 在 这 样 的 背景 下 就 产生 了 。 
9.3.2 ”主要 功能 


这 里 重点 介绍 公平 调度 器 FairScheduler 实 现 的 主要 功能 。 


实现 了 类 似 Linux 内 核 的 Fair-Share 调 度 算法 ， 以 保证 各 个 作业 基本 上 能 公平 共享 整个 集群 的 资源 。 
: 文 持 多 用 户 、 0 源 池 : 文 持 根据 不 同属 性 来 划分 资源 池 pool， 默 认为 每 个 用 户 一 个 资源 池 ， 也 可 根据 用 户 组 、 队 列 名 来 划分 资源 池 pool， 每 个 作业 属于 一 个 poll1， 一 个 pool 可 以 有 多 个 作业 ， 资 源 池 pool 之 间 公 平 


< 子 特 全 未 
:支持 资源 池 最 小 共享 量 保证 和 最 大 作业 限制 : 允许 通过 配置 来 保证 一 个 资源 池 最 少 能 共享 到 的 资源 ， 资 源 池 pool 中 的 作业 依据 权重 共享 这 些 最 少 资源 量 ;， 也 可 以 限制 一 个 用 户 或 者 资源 池 Ppool1 最 多 可 以 同时 运行 的 作业 数 。 
.共享 权重 可 配置 : 通过 调整 共享 权重 使 高 优先 级 作业 、 大 作业 共享 到 更 多 资源 ， 同 时 提供 了 调整 共享 权重 、 从 作业 中 选择 哪个 任务 来 运行 、tasktrackez 负 载 管理 等 扩展 点 。 


人 资源 池 ， 而 当 该 资源 池 有 新 的 任务 需求 时 ， 调 度 器 会 回收 共享 给 其 他 资源 池 的 资源 ， 一 般 先 等 待 一 段 时 间 ， 如 果 资 源 未 释放 则 进行 资源 抢占 
.实现 了 延迟 调度 : 延迟 调度 机 制 可 以 提高 数据 本 地 任务 的 运行 效率 。 所 谓 的 延迟 调度 是 当 集群 节点 有 空闲 的 计算 槽 位 资源 时 ， 选 择 调度 的 作业 并 没有 本 地 任务 〈 数 据 分 块 在 空闲 槽 位 的 本 地 计算 节点 ) 或 者 本 机 架 任 务 〈 数 据 分 块 


在 空闲 模 位 的 同 机 架 节 点 ) 时 ， TE 闲 的 槽 位 资源 给 其 他 的 具有 本 地 数据 任务 的 作业 ， 如 果 在 超过 一 个 时 间 阔 值 还 没有 满足 要 求 的 本 地 数据 任务 的 情况 下 才 会 分 配给 非 本 地 任务 。 延 迟 调度 的 最 终 目的 本 质 上 是 尽 
量 让 数据 靠近 计算 从 而 提高 整个 集群 的 计算 效率 。 


9.3.3 ”基本 调度 策略 


公平 调度 器 的 核心 概念 就 是 随 着 时 间 的 推移 能 平均 获取 同等 的 共享 资源 。 当 单独 一 个 作业 在 运行 时 ， 它 将 使 用 整个 集群 ; 当 有 其 他 作业 被 提交 时 ， 系 统 会 将 任务 (task) 空闲 时 间 片 (slot) 赋 给 新 的 作 
业 ， 以 使 每 一 个 作业 都 能 获取 等 量 的 CPU 时 间 。 与 Hadoop 默 认 调度 器 维护 一 个 作业 队列 不 同 ， 这 个 特性 能 让 小 作业 在 合理 的 时 间 内 完成 的 同时 又 不 “ 钱 ” 到 消耗 较 长 时 间 的 大 作业 ， 它 也 是 一 个 在 多 用 户 
间 共 享 集群 的 简单 方法 。 公 平 共享 可 以 和 作业 优先 权 搭配 使 用 一 一 优先 权 像 权 重 一 样 作 为 决定 每 个 作业 所 能 获取 的 整体 计算 时 间 的 比例 。 


公平 调度 器 有 一 个 资源 池 pool 的 概念 ， 并 通过 资源 池 来 组 织 作 业 ， 把 资源 公平 地 分 到 这 些 资源 池 里 。 在 默认 情况 下 ， 每 一 个 用 户 拥 有 一 个 独立 的 资源 池 ， 以 使 每 个 用 户 都 能 获得 一 份 同 等 的 集群 资源 而 
不 管 其 提交 了 多 少 作业 。 按 用 户 的 Unix 群 组 或 作业 配置 Jobconf) 属性 来 设置 作业 的 资源 池 也 是 可 以 的 。 在 每 一 个 资源 池内 ， 会 使 用 公平 共享 (fair sharing) 的 方法 在 运行 的 作业 间 共 享 资 源 容量 
(capacity) 。 用 户 也 可 以 给 予 资源 池 相 应 的 权重 ， 以 不 按 比例 的 方式 共享 集群 。 除 了 提供 公平 共享 的 方法 外 ， 公 平 调度 器 允许 赋 给 资源 池 以 保证 (guaranteed) 最 小 的 共享 资源 ， 这 个 用 在 确保 特定 用 
户 、 群 组 或 生产 应 用 程序 中 总 能 获取 足够 的 资源 时 是 很 有 用 的 。 当 一 个 资源 池 包 含 作 业 时 ， 它 至 少 能 获取 到 最 小 共享 资源 ， 但 是 当 资 源 池 不 完全 需要 它 所 拥有 的 保证 共享 资源 时 ， 额 外 的 部 分 会 在 其 他 资源 


池 间 进行 切 分 。 


在 常规 操作 中 ， 当 提交 了 一 个 新 作业 时 ， 公 平 调度 器 会 等 待 已 运行 作业 中 的 任务 完成 以 释放 时 间 片 给 新 的 作业 。 但 是 ， 公 平 调度 器 也 支持 在 可 配置 的 超时 时 间 后 对 运行 中 的 作业 进行 抢占 。 如 果 新 的 作 
业 在 一 定时 间 内 还 获取 不 到 最 小 的 共享 资源 ， 这 个 作业 被 允许 去 终结 已 运行 作业 中 的 任务 以 获取 运行 所 需要 的 资源 。 因 此 抢占 可 以 用 来 保证 “生产 ”作业 在 指定 时 间 内 运行 的 同时 使 Hadoop 集 群 能 被 实验 
或 研究 作业 使 用 。 另 外 ， 作 业 的 资源 在 可 配置 的 超时 时 间 (一 般 设置 大 于 最 小 共享 资源 超时 时 间 ) 内 拥有 不 到 其 公平 的 共享 资源 (fair share) 的 一 半 的 时 也 人 允许 对 任务 进行 抢占 。 在 选择 需要 结束 的 任务 
时 ， 公 平 调度 器 会 在 所 有 作业 中 选择 那些 最 近 运 行 的 任务 ， 以 最 小 化 被 浪费 的 计算 。 抢 占 不 会 导致 被 抢占 的 作业 失败 ， 因 为 Hadoop 作 业 能 容忍 丢失 任务 ， 这 只 会 让 它们 的 运行 时 间 更 长 。 


在 公平 调度 器 中 一 个 非常 核心 的 设计 就 是 资源 池 的 分 配 策略 ， 其 分 配 策略 ， 如 图 9-4 所 示 。 
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图 9-4 ”公平 调度 器 资源 池 分 配 策 略 


从 图 9-4 中 就 可 以 看 出 ， 公 平 调度 算法 中 的 计算 资源 池 分 配 策 略 ， 图 中 Hadoop 集 群 有 100 个 槽 位 数 ， 一 共有 三 个 资源 池 队 列 ， 每 个 队列 的 用 途 都 是 不 一 样 的 : 资源 池 pool-p 用 于 生产 的 队列 ， 最 小 共享 
量 60 个 计算 槽 位 ;资源 池 pool-a 类 队列 最 小 共享 量 0， 资 源 池 pool-b 类 队列 最 小 共享 量 10 个 计算 槽 位 。 公 平 调度 算法 执行 分 配 作业 时 会 先 保证 资源 池 pool-p 生 产 队列 中 具有 60 个 计算 槽 位 ; 资源 池 pool-b 队 
列 中 至 少 具 有 10 个 资源 槽 位 ， 在 资源 池 pool-b 中 没有 提交 的 作业 时 会 共享 其 资源 到 其 他 需要 的 资源 池 队列 中 ， 例 如 在 资源 池 pool-p 中 有 两 个 作业 ， 内 部 也 是 公平 调度 算法 ， 因 此 每 个 作业 平分 共享 30 个 计算 
槽 位 ， 而 资源 池 pool-a 中 有 3 个 作业 ， 由 于 资源 池 pool-b 中 没有 要 执行 的 作业 ， 因 此 资源 池 pool-a 就 获得 了 其 余 的 40 个 计算 槽 位 ， 而 资源 池 pool-a 内 部 是 FIFO 调 度 ， 因 此 只 能 是 第 一 个 作业 先 占有 40 个 计算 
资源 ， 执 行 完 后 才 会 调度 队列 中 的 次 优先 级 作业 。 

总 的 来 说 ， 公 平 调度 器 还 可 以 限制 每 个 用 户 和 每 个 资源 池 的 并 发 运行 作业 数量 。 当 一 个 用 户 必须 一 次 性 提交 数 百 个 作业 时 ， 或 当 大量 作 业 并 发 执行 时 ， 用 来 确保 中 间 数 据 不 会 塞 满 集群 的 磁盘 空间 ， 这 
是 很 有 用 的 。 设 置 作业 限制 会 使 超出 限制 的 作业 被 列 入 调度 器 的 队列 中 进行 等 待 ， 直 到 一 些 用 户 /资源 池 的 早期 作业 运行 完毕 。 系 统 会 根据 作业 优先 权 和 提交 时 间 的 排列 来 运行 每 个 用 户 /资源 池 中 的 作业 。 


9.3.4 FairScheduler 实 现 分 析 


公平 调度 器 FairScheduler 的 核心 实现 类 为 org.apache.hadoop.mapred.FairScheduler 类 ， 类 似 FIFO 调 度 器 ，FairScheduler 类 也 继承 了 TaskScheduler 基 类 ， 总 体 实 现 包括 五 个 核心 模块 ， 分 别 为 : 
作业 池 管 理 模块 、 任 务 选择 模块 、 策 略 权 重 调整 模块 、 作 业 调 度 更 新 模块 、 负 载 均 衡 模 块 。 除 此 之 外 ， 还 有 两 个 调度 器 框架 本 身 的 功能 模块 : 作业 监听 模块 和 作业 初始 化 模块 。FairScheduler 实 现 架 构 示意 
图 ， 如 图 9-5 所 示 。 
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图 9-5 ”公平 调度 器 FaitrSchedulet 实 现 架构 示意 图 


在 9-5 图 中 ， 用 户 提 交 作业 到 JobTracker， 然 后 通过 作业 接收 器 到 达 作 业 池 管理 模块 (PoolManager 类 实现 ) ; PoolManager 类 主要 负责 以 资源 池 为 单位 来 管理 维护 用 户 提 交 的 作业 ， 在 调度 过 程 中 每 
个 作业 资源 池 参 与 调度 的 作业 数量 都 是 有 限制 的 ， 因 此 每 个 作业 都 映射 于 一 个 唯一 的 作业 池 ; 负载 均衡 模块 (LoadManager 类 实现 ) 会 依据 当前 集群 的 负载 以 及 当前 TaskTracker 节 点 的 负载 情况 来 决策 是 
否 应 该 给 TaskTracker 节 点 分 配 Map 或 者 Reduce 任 务 ; 任务 选择 模块 (Taskselector 类 实现 ) 负责 从 作业 池 中 的 一 个 作业 选取 一 个 Map 或 者 Reduce 任 务 来 分 配给 TaskTracker 节 点 执行 ， 也 就 是 决定 选择 哪 
个 一 个 任务 来 执行 ， 这 是 任务 调度 分 配 策略 的 核心 ， 作 业 更 新 线程 模块 (UpdateThread 类 实现 ) 会 间隔 ?500 毫秒 更 新 一 次 作业 池 中 的 可 调度 作业 集合 ， 在 更 新 过 程 中 ，UpdateThread 线 程 会 调用 作业 策略 
权重 调整 器 (WeightAdjuster 实 现 ) 来 更 新 作业 池 中 每 一 个 作业 的 权重 信息 。FairScheduler 中 负责 作业 监听 的 类 还 是 JobListener; 负责 初始 化 作业 的 类 是 EagerTasklnitializationListener。 


FairScheduler 在 设计 时 也 考虑 了 调度 算法 的 可 扩展 性 ， 因 此 作业 权重 调整 器 WeightAdjuster 采 用 接口 化 设计 ， 负 载 均衡 模块 和 作业 选择 模块 都 采用 了 抽象 类 模式 来 设计 。 目 前 的 FairScheduler 中 默认 


实现 了 NewJobWeightAdjuster 作 业 调 整 类 ，CapBasedLoadManager 负 载 均衡 类 和 DefaultTaskSelector 上 默认 作业 选择 类 。 


9.3.5 ”FairScheduler 启 停 分 析 


9.3.4 节 对 公平 调度 器 FairScheduler 的 实现 架构 进行 了 详细 分 析 ， 下 面 对 FairScheduler 的 启动 和 停止 进行 分 析 。 
公平 调度 器 FairScheduler 是 通过 调用 FairScheduler 类 的 start() 函 数 启动 的 ， 主 要 逻辑 步骤 如 下 : 


步骤 1 创建 每 个 作业 对 应 的 调度 信息 Map<JoblnProgress，Joblnfo>infos， 以 及 FairScheduler 监 听 日 志 eventLodg。 


步骤 2 ”创建 作业 初始 化 EagerTasklnitializationListener 对 象 和 作业 监听 对 象 JobListener 这 两 个 JoblnProgressListener 对 象 ， 并 向 JobTracker 注 册 JobListener， 核 心 代 码 如 下 : 


// 创建 初始 化 类 EagerTaskInitializationListener 对 象 

jobInitializer = new JobInitializer (conf, taskTrackerManager); 
// 注册 jobListener 对 象 
taskTrackerManager.addJobInProgressListener (jobListener); 


步骤 3 ”创建 作业 池 管 理 器 PoolManager 并 初始 化 ， 核 心 代码 如 下 : 


poolMgz = new PoolManager (this) // 创建 作业 池 管 理 器 PoolManager 对 象 
poolMgr.initialize (); // 初始 化 


步骤 4 创建 负载 均衡 器 LoadManager， 加 载 配置 并 启动 ， 核 心 代码 如 下 : 


// 创建 负载 均衡 器 LoadManager 对 象 loadMgr 
loadMgr = (LoadManager) ReflectionUtils.newInstance( 
conf .getClass ("mapred.fairscheduler.1loadmanager", 
CapBasedLoadManager.class, LoadManager.class), conf); 
loadMgr.setTlasklTrackerManager (taskTrackerManager); 
loagdMgr .setEventLog (eventLog); 
loadMgr. start (); // 启动 


配置 参数 mapred.fairscheduler.loadmanager 用 于 自 定义 负载 均衡 器 ， 负 载 均衡 器 Load-Manager 的 主要 功能 就 是 决定 一 个 给 定 TaskTracker 上 可 以 运行 多 少 个 Map 和 Reduce， 这 个 类 需要 实现 
LoadManager 接 口 ， 默 认 情 况 下 FairScheduler 自 带 实 现 CapBasedLoadManager 类 。 


步骤 5 创建 任务 选择 器 TaskSelector 对 象 并 启动 ， 核 心 代码 如 下 : 


// 创建 TaskSelector 对 象 

taskSelector = (TaskSelector) ReflectionUtils.newInstance( 

conf .getClass ("mapred.fairscheduler.taskselector", 
DefaultTaskSelector.class, TaskSelector.class), conf); 
taskSelector.setTaskTrackerManager (taskTrackerManager); 


taskSelector. start () ， /7 局 动 


配置 参数 mapred.fairscheduler.taskselector 用 于 自 定义 任务 管理 器 的 实现 ，TaskSelector 本 身 的 功能 就 是 选择 哪个 任务 分 配给 TaskTracker 来 运行 ， 这 种 自 定义 特性 可 以 用 来 改变 本 地 化 策略 (比如 让 
一 些 作 业 在 特定 机 架 内 ) 或 推测 (speculative) 式 执行 算法 (选择 什么 时 候 去 执行 推测 任务 ) 。 在 默认 情况 下 使 用 FairScheduler 的 自 带 实现 DefaultTaskSelector 类 。 


步骤 6 创建 权重 管理 器 WeightAdjuster， 核 心 代码 如 下 : 


Class<?> weightAdjClass = Conf .getClass ( 

"mapred.fairscheduler .weightadjuster", null); 

f (weightAgdjClass != null) { 

weightAdijuster = (WeightAdjuster) ReflectionUtils.newInstance ( 
weightAdjClass, conf); 


P- 


通过 配置 参数 mapred.fairscheduler.weightadjuster 指 定 的 实现 类 创建 权重 策略 管理 器 ，WeightAdjuster 的 功能 就 是 用 于 调整 正在 运行 中 的 作业 的 权重 ， 在 FairScheduler 公 平 调度 器 中 
WeightAdjuster 默 认 实 现 类 为 NewJobWeightBooster， 它 会 在 作业 生命 周期 中 的 前 5 分 钟 增加 作业 的 权重 ， 以 使 小 作业 能 更 快速 地 完成 。 


步 又 7 根据 配置 获取 公平 调度 器 控制 参数 信息 ， 例 如 通过 参数 mapred.fairscheduler.assignmultiple 获 取 一 次 心跳 是 否 分 配 Map 和 Reduce 的 参数 assignMultiple; 通过 参数 
mapred.fairscheduler.sizebasedweight 获 取 是 否 根据 作业 大 小 调整 权重 的 参数 sizeBasedWeight 等 。 


参数 assignMultiple 和 sizeBasedWeight 是 公平 调度 器 FairScheduler 的 两 个 重要 控制 参数 ， 参 数 assignM ultiple 用 于 控制 给 一 个 TaskTracker 节 点 分 配 任务 的 数量 ， 如 果 该 值 被 配置 为 true， 则 最 多 可 
以 给 一 个 TaskTracker 节 点 分 配 一 个 Map 任 务 和 一 个 Reduce 任 务 ， 否 则 最 多 只 为 其 分 配 一 个 Map 任 务 或 者 一 个 Reduce 任 务 。 参 数 sizeBasedWeight 被 用 在 更 新 作业 的 权重 时 是 否 应 该 考虑 该 作业 尚未 完成 


的 任务 大 小 。 
步骤 8 ”创建 并 启动 作业 调度 更 新 线程 UpdateThread。 
步骤 9 向 JobTracker 的 HTTP Server 注 册 FairSchedulerServlet， 从 而 启动 基于 Web 的 调度 器 可 视 化 管理 服务 。 
上 述 步骤 是 公平 调度 器 的 启动 过 程 ， 而 停止 公平 调度 器 时 则 通过 调用 FairScheduler 的 terminate() 国 数 来 实现 ， 在 terminate() 函 数 的 执行 过 程 中 首先 将 运行 状态 标准 running 设 为 false， 这 样 其 他 几 个 


后 台 线 程 会 自动 退出 ， 然 后 注销 启动 时 注册 的 两 个 JoblnProgressListener 对 象 。 


9.3.6 ”作业 监听 控制 


在 调度 器 中 作业 监听 是 Hadoop 调 度 框 架 本 身 具 有 的 基本 功能 ， 在 公平 调度 器 FairScheduler 中 是 由 内 部 类 jJobListener 负 责 对 作业 进行 监听 控制 的 ，JobListener 类 继承 了 JoblnProgressListener 重 写 了 
jobAddedWUoblnProgress job) 函 数 ， 作 业 监 听 控 制 主 要 就 是 对 作业 进行 添加 ， 删 除 以 及 更 新 操作 。 


在 进行 作业 添加 时 ， 在 jobAddedUoblnProgress job) 函 数 中 调用 PoolManageraddjob(0 函 数 将 作业 加 入 作业 资源 池 pool 中 ， 并 创建 一 个 FairSschedulerJoblnfo 对 象 ， 将 其 和 job 的 对 应 关系 加 入 
FairScheduler 的 infos 对 象 中 。 


在 删除 作业 时 ， 执 行 jobRemoved() 函 数 来 完成 ，jobRemoved() 函 数 会 调用 PoolManager.removejJob() 函 数 从 pool 中 删除 ob ， 从 infos 中 删除 job。 


作业 更 新 由 jobUpdated() 函 数 完成 ， 在 公平 调度 器 中 这 个 函数 什么 事情 都 不 做 。 


9.3.7 ”资源 池 管 理 


公平 调度 器 FairScheduler 是 多 用 户 多 队列 调度 器 ， 资 源 池 pool 是 FairScheduler 中 提出 的 一 个 非常 重要 的 概念 ， 资 源 池 管 理 是 由 资源 池 管 理 器 PoolManager 负 责 的 ， ny 
关系 密切 。FairScheduler 在 调度 作业 时 从 两 个 层面 上 来 决定 作业 的 调度 ， 首 先 会 依据 用 户 user 和 作业 池 pool| 的 限制 条 件 来 选取 一 定量 的 作业 作为 当前 可 调度 的 作业 集合 ;然后 对 这 个 可 调度 的 作业 集合 进行 
基于 公平 度 的 排序 ， 进 而 优先 调度 那些 公平 度 低 的 作业 来 调度 执行 。 公 平 度 是 公平 调度 器 中 一 个 反映 作业 已 占用 计算 资源 与 它 应 该 分 得 的 计算 资源 两 者 落差 的 一 个 测度 ， 因 此 公平 度 值 越 大 越 需要 被 调度 ， 
然而 一 个 作业 在 调度 时 应 该 分 配 多 少 计算 资源 不 仅 取 决 于 它 的 公平 度 ， 还 和 作业 的 权重 以 及 其 所 属 的 资源 池 pool 的 权重 相关 ， 一 个 作业 的 权重 以 及 它 所 属 的 资源 池 pool 的 权重 越 大 ， 那 么 在 调度 时 分 配 的 计 


算 资 源 就 越 多 。 


在 FairScheduler 中 一 个 作业 的 权重 具体 计算 方法 的 核心 代码 如 下 : 


public double 0 [npProgress job, TaskType taskType) { 
if isRunmable (Job)) 
// 作业 是 否 当前 可 箱 度 的 作业 集 
return 1.0; 
} else { 
double weight = 1.0; 
if (sizeBasedWeight) 
// 裕 司 当 竺 针尖 度 作业 集合 的 数量 设置 权重 大 小 
JobInfo info = infos.get (job); 
int runnableTasks = (taskType == TaskType .MAP) 
info.mapSchedulable.getDemand() : 
info.reduceSchedulable.getDemang () ; 
weight = Math.loglp (runnableTasks) / Math.1o0g (2); 


HH 


} 

// 作业 权重 控制 
weight *= getPriorityFactor (job.getPriority()); 

if (weightAdjuster != null) { 

// 通过 用 户 提 供 的 权重 调整 类 weightAdjuster 调 整 权 重大 小 

weight = weightAgdjuster.adjustWeight (job, taskType, weight); 
} 
return weight; 


} 


从 上 述 核心 代码 中 可 以 看 到 计算 作业 的 原始 权重 mapWeight 和 reduceWeight 的 方法 : 如 果 启 用 了 sizeBasedWeight， 则 权重 为 weight=Math.log1p(runnableTasks)/Math.log(2)， 然 后 根据 作业 优 
先 级 修改 weight=weight* 优 先 级 系数 (从 VERY_HIGH 到 VERY_LOW 分 别 为 4，2，1，0.5，0.25) ， 最 后 通过 调用 消 数 WeightAdjuster.adjustWeight (job，taskType，weight) 来 调整 权重 weight。 


全 注意 计算 作业 权重 的 方法 在 0.20.* 版 本 以 及 之 前 的 版 本 中 是 在 函数 calculateRawWei-ght (JobInProgress job，TaskType taskType) 中 计算 的 ， 在 1.0.* 版 本 中 是 通过 函数 getJobWeight (JobInProgress 
job，TaskType taskType) 计 算得 到 的 。 这 两 个 函数 都 在 公平 调度 器 的 核心 文件 Fairscheduler.java 中 。 


在 作业 选择 上 ，FairScheduler 会 先 基 于 FIFO 的 策略 从 用 户 user 和 和 资源 池 pool 的 限制 层面 上 选择 一 批 作 业 作 为 当前 可 调度 的 作业 集合 ， 这 里 对 user 的 限制 是 指 在 这 个 可 调度 作业 集中 属于 该 user 的 作业 
数量 不 能 超过 它 的 上 限 ; 对 pool 的 限制 是 指 在 这 个 可 调度 作业 集中 属于 该 pool 的 作业 数量 不 能 超过 它 的 上 限 ， 各 个 user、pool 的 限制 都 保存 在 PoolManager 中 ， 而 PoolManager 是 通过 加 载 配 置 文件 来 得 
到 这 些 限 制 信息 的 。 


FairScheduler 具 体 配 置 文件 的 路 径 可 以 由 JobTracker 节 点 的 配置 文件 (mapred-site.xml) 中 的 参数 选项 来 设置 ， 对 应 的 配置 参数 选项 为 : mapred.fairscheduler.allocation.file， 用 户 还 可 以 在 这 个 


配置 文件 中 指定 一 个 作业 池 poll 至 少 可 以 获得 集群 中 多 少 Map/Reduce 计 算 模 位 资源 。 资 源 池 信息 也 是 在 JobTracker 节 点 的 配置 文件 (mapred-site.xml) 中 通过 参数 选项 
mapred.fairscheduler.poolnameproperty 指 定 的， 参数 选项 mapred.fairscheduler.poolnameproperty 有 三 个 可 用 值 : 默认 值 是 user.name， 即 每 个 用 户 对 应 一 个 资源 池 pool; group.name， 即 一 个 


linux group 对 应 一 个 资源 池 pool; mapredjob.queue.name， 即 一 个 队列 queue 对 应 一 个 资源 池 pool。 


9.3.8 ”作业 更 新 策略 


FairScheduler 实 现 了 Fair sharing 算 法 ， 每 隔 一 段 时 间 delta 就 更 新 一 次 ， 更 新 的 时 候 计 算出 这 段 时 间 内 作业 实际 使 用 了 多 少 计算 模 位 slot、 实 际 使 用 与 理论 分 到 的 计算 槛 位 slot 之 间 差 距 的 累积 缺额 
dificit、 下 一 次 应 该 分 到 的 计算 槽 位 slot。 在 调度 的 时 候 ， 就 选择 缺额 dificit 最 大 的 那个 作业 ， 因 为 它 的 计算 槽 位 资源 slot 需 求 是 最 没有 得 到 满足 的 ， 它 是 受到 最 不 公平 待遇 的 ， 从 而 被 优先 调度 。 


在 FairScheduler 执 行 start0 函 数 启 动 时 会 启动 一 个 作业 更 新 线程 UpdateThread， 这 个 线程 每 隔 500 毫 秒 就 调用 FairScheduler.update() 函 数 去 更 新 作业 ， 更 新 的 内 容 包 括 infos 中 的 作业 、 作 业 的 缺额 
dificit、 作 业 能 否 运行 、 作 业 的 任务 计数 、 权 重 、 最 少 slot、fairshare 等 。 


在 不 同 的 Hadoop 版 本 中 ，Fair Sharing 更 新 策略 在 实现 上 有 所 不 同 ，Hadoop 0.20.X 版 本 在 实现 上 较为 简洁 易于 理解 ，1.0.X 以 及 之 后 的 版 本 在 类 继承 关系 上 较为 复杂 ， 但 是 设计 得 更 为 合理 。 对 于 公 
平 调度 器 的 学 习 者 ， 建 议 从 经 典 的 0.20.X 版 本 开始 学 习 ， 然 后 学 习 更 高 版 本 的 实现 。 下 面 首先 讲述 Hadoop-0.20.X 版 本 中 公平 调度 器 Fair Sharing 更 新 策略 的 实现 ， 然 后 介绍 1.0.X 以 及 之 后 版 本 中 的 异同 。 


下 面 介 绍 在 Hadoop-0.20.X 版 本 中 Fair Sharing 更 新 主要 逻辑 步骤 。 


步骤 1 将 已 经 完成 的 作业 从 infos 和 PoolManager 中 删除 ， 代 码 如 下 : 


List<JobInProgress> toRemove = new ArrayList<JobInProgress> (); 
for (JobInProgress job: infos.keySet ()) { 

int runState = job.getStatus () .getRunState () ， 
// 删除 条 件 
if (runState == JobStatus.SUCCEEDED || funState == 
JobStatus.FAILED || runState == JobStatus.KILLED) { 
toRemove.add (job); // 添加 到 删除 列表 


} 
} 
for (JobInProgress job: toRemove) { 
jobNoLongerRunning (job); ”// 从 infos 和 PoolManager 中 移 除 


} 


从 上 述 代码 中 的 删除 条 件 就 可 以 看 出 已 经 完成 的 作业 包括 三 种 状态 : SUCCEEDED、FAILED、KILLED， 这 样 做 的 目的 是 可 以 减少 不 必要 的 内 存 占用 。 


步骤 2 ”更 新 作业 资源 缺额 dificit， 通 过 调用 函数 updateDeficits(timeDelta) 完 成 ， 变 量 timeDelta 是 上 次 更 新 到 当前 时 间 的 间隔 ， 更 新 的 方式 如 下 ，Map 和 Reduce 任 务 一 样 ， 代 码 如 下 : 


Private void updateDeficits (Long timeDelta) { 
for (JobInfo info: infos.values()) { 
// 计算 Map 资 源 缺 额 mapDeficit 
info.mapDeficit += 
(info.mapFairShare - info.runningMaps) * timeDelta; 
// 计算 Reduce 资 源 缺 额 reduceDeficit 
info.reduceDeficit += 
(info.reduceFairShare - info.runningReduces) * timeDelta; 


在 上 述 计算 函数 中 ， 计 算 Map 的 资源 缺额 变量 info.mapDeficit 中 的 info.mapFairShare 表 示 上 一 timeDelta 时 间 间 隔 内 Map 的 FairShare; info.runningMaps 表 示 上 一 timeDelta 时 间 间 隔 内 运行 的 
Map 任 务 数 。Reduce 的 资源 缺额 info.reduceDeficit 计 算 中 的 参数 意义 和 Map 的 类 似 。 


步骤 3 ”依据 user/pool 限 制 更 新 作业 信息 ， 通 过 调用 消 数 updateRunnability0 完 成 。 


在 国 数 updateRunnability0 中 ， 对 于 infos 中 每 一 个 作业 ， 先 将 其 状态 runnable 初 始 化 为 false， 然 后 遍历 所 有 处 于 运行 态 running 的 作业 ， 更 新 用 户 对 应 的 作业 数 和 资源 池 pool 对 应 的 作业 数 ， 如 果 都 
没有 超过 限制 ， 将 作业 的 runnable 设 置 为 true。 也 就 是 说 ， 排 在 后 面 可 能 导致 用 户 作业 数 或 pool 作 业 数 超过 限制 的 作业 runnable 就 保持 为 false， 和 暂时 不 会 继续 调度 。 


步骤 4 更 新 所 有 处 于 running 状 态 作 业 的 runningMaps 和 neededMaps 信 息 ， 通 过 调用 函数 updateTaskCounts() 完 成 。runningMaps 是 所 有 的 正在 运行 的 任务 之 和 ， 这 包括 了 预测 式 执行 的 Map 任 
务 数 ; neededMaps 是 还 需要 运行 的 Map 数 ， 计 算 时 使 用 总 的 Map 数 减 去 正在 运行 的 和 已 经 完成 的 ， 然 后 加 上 需要 预测 执行 的 Map 数 ， 计 算 公式 如 下 : 


info.neededMaps = (totalMaps - runningMaps - finishedMaps 
+ taskSelector.neededSpeculativeMaps (job) ) ; 


对 于 Reduce 来 说 ， 要 先 看 是 否 有 足够 的 Map 任 务 已 完成 ， 如 果 没 有 ， 则 neededReduces 为 0; 如 果 有 ， 则 neededReduces 的 计算 方法 和 neededMaps 类 似 ， 计 算 公 式 如 下 : 


info.neededReduces = (totalReduces - runningReduces 一 
finishedReduces + 
taskSelector.neededSpeculativeReduces (job) ) 


最 后 如 果 作 业 的 runnable 状 态 标志 为 false， 则 neededMaps 和 neededReduces 都 清 零 。 
步骤 5 ”更 新 作业 和 资源 池 权 重 ， 通 过 调用 函数 updateWeights(0 完 成 。 
计算 函数 updateWeights() 分 为 三 个 步骤 。 


1) 首先 计算 每 个 作业 的 原始 权重 ， 即 mapWeight 和 reduceWeight。 作 业 不 为 runnable 的 作业 权重 为 0; 否则 为 1， 如 果 启 用 了 sizeBasedWeight， 则 权重 为 
weight=Math.log1p(runnableTasks)/Math.log(2)， 然 后 根据 作业 优先 级 修改 权重 weight=weight* 优 先 级 系数 。 优 先 级 系数 对 照 ， 如 表 9-2 所 示 。 


表 9-2 ”作业 优先 级 系数 对 照 表 


优先 级 别 
VERY HIGH - 
HIGH 
NURMAL ] 
LOW 
VERY LOW 


~- 


如 果 用 户 没有 指定 优先 级 则 默认 为 VERY_LOW 级 别 ， 使 用 优先 级 系数 加 权 后 调用 WeightAdjuster.adjustWeight() 来 调整 weight。 
2) 其 次 计算 每 一 个 资源 池 中 作业 权重 之 和 ， 即 mapWeightSum 和 reduceWeightSum。 


3) 最 后 对 权重 进行 归 一 化 处 理 ， 权 重 归 一 化 的 计算 公式 如 下 : 


info.mapWeight *= (poolWeight / mapWeightSum) 


其 中 info.mapWeight 是 作业 中 Map 的 原始 权重 ; poolWeight 是 资源 池 权重 ，mapWeightSum 是 这 个 资源 池 中 所 有 Map 任 务 的 权重 之 和 ， 这 样 处 理 后 一 个 资源 池 pool 中 的 作业 的 权重 之 和 就 等 于 
poolWeight (不 配置 的 情况 下 默认 为 1) 。 


步骤 6 ”更 新 作业 最 少 可 以 分 配 得 到 的 计算 资源 槽 位 ， 通 过 调用 函数 updateMinslots() 完 成 。 首 先 获得 配置 中 资源 池 pool 的 minMaps 和 minReduces， 然 后 按照 pool 中 作业 所 占 的 权重 比例 将 这 些 
minMaps 和 minReduces 均 分 给 pool 中 的 作业 。 如 果 某 个 作业 没有 那么 多 任务 需要 运行 ， 那 么 这 个 作业 实际 上 并 不 需要 分 到 minMaps 或 minReduces， 对 于 这 种 情况 会 将 多 余 计算 槽 位 分 给 剩 下 的 作业 。 


步骤 7 更 新 作业 的 公平 份额 fairshare， 也 就 是 下 一 个 timeDelta 时 间 段 应 该 分 配 的 计算 模 位 资源 数 ， 通 过 调用 函数 updateFairShares(ClusterStatus clusterStatus) 完 成 。 在 更 新 作业 的 fairshare 时 主 
要 基于 权重 和 最 小 共享 资源 量 来 计算 ， 分 为 以 下 两 步 。 


1) 首先 满足 作业 的 minMaps 和 minReduces 需 求 。 


对 所 有 running 状 态 的 作业 weight 求 和 得 到 权重 之 和 totalWeight， 然 后 计算 作业 的 共享 量 fairShare， 具 体 代 码 如 下 : 


// 获取 最 小 分 配 槽 位 数 
double ee = (type == TaskType.MAP 
o.minMaps : info.minReduces); 
// 获取 当前 的 作业 权重 
doubl weight = (type == TaskType.MAP 
Tne mapWeight : info.reduceWeight); 
// 计算 作业 共享 量 fairShare 
double fairShare = weight / totalWeight * oldSlots; 
if (minSlots > fairShare) { 

开工 (type == TaskType .MAP) 
info.mapFairShare = minSlots; 


else 

info.reduceFairShare = minSlots; 
slotsLeft - minSlots; / 更 新 剩余 的 sSLlotsLeft 
iter.remove () ; // 分 本 之 牛 生 该 作业 从 关 下 | 吏 隐 
recomputeSlots = true 


在 上 述 计 算 作业 共享 量 fairShare 中 变量 oldSlots 是 上 次 剩余 计算 槽 位 资源 的 总 和 和，fairShare 的 意义 就 是 根据 权重 比例 计算 出 应 该 分 配 到 的 资源 槽 位 数 ， 如 果 fairShare< minSlots， 则 设置 作业 的 
mapFairShare=minSlots， 然 后 在 slotsLeft 中 减 去 minSlots 来 更 新 剩余 计算 槽 位 资源 的 总 和 slotsLeft。 


2) 作业 的 minMaps 或 minReduces 资 源 需求 得 到 满足 之 后 ， 将 剩 下 的 totalslot 资 源 数 按照 权重 比例 分 给 剩 下 的 作业 ， 实 现代 码 如 下 : 


for (JobInfo info: jobsLeft) {  // 遍历 剩余 的 作业 列表 
double weight = (type == TaskType.MAP ? 
info.mapWeight : info.reduceWeight) 
// 计算 共享 量 fairShare， 并 依据 oiiehs re 的 大 小 分 他 宰 亲 的 次 
double fairShare = weight / totalWeight * oldSlots; 


主 下 (type == TaskType .MAP) 
info.mapFairShare = fairShare; 
else 
info.reduceFairShare = fairShare; 


he 


上 述 7 个 主要 步骤 就 是 作业 更 新 策略 在 Hadoop-0.20.X 版 本 中 的 具体 实现 步 又。 在 Hadoop-1.0.X 以 及 之 后 的 版 本 中 作业 更 新 策略 增加 了 延 时 调度 等 功能 ， 并 且 在 逻辑 上 更 为 合理 ， 主 要 步骤 如 下 。 


步骤 1 如果 设置 了 自动 计算 延迟 调度 的 时 间 阐 值 ， 则 依据 JobTracker 的 心跳 信息 更 新 计算 延迟 调度 的 本 地 延迟 时 间 阐 值 ， 代 码 如 下 : 


// 计算 延迟 调度 的 本 地 任务 延迟 时 间 阔 值 

nodeLocali ay = Math.min (MAX AUTOCOMPUTED LOCALITY DELAY, 
(lon (1.5 * jobTracker.getNextHeartbeatInterval ())); 
// 延 运 调 度 侈 是 机 蜗 储 务 延 巡 时 间 涡 入 


rackLocalityDelay = nodeLocalityDelay; 


在 上 述 代码 中 ， 参 数 MAX_ AUTOCOMPUTED _ LOCALITY_DELAY 是 常量 ， 具 体 为 15000 毫 秒 ; jobTracker.getNextHeartbeatinterval() 是 下 一 次 心跳 的 时 间 间 隔 ， 将 其 乘 以 1.5 之 后 取 两 者 的 最 小 值 作 
为 延迟 调度 的 延迟 时 间 阐 值 。 


步骤 2 将 已 经 完成 的 作业 从 infos 和 PoolManager 中 删除 ， 和 上 述 Hadoop-0.20.X 版 本 一 样 ， 这 里 不 再 歼 述 。 
步骤 3 ”更 新 作业 资源 缺额 dificit， 通 过 调用 遂 数 updateDeficits(timeDelta) 完 成 ， 变 量 timeDelta 是 上 次 更 新 到 当前 时 间 的 间 隅 ， 和 上 述 Hadoop-0.20.X 版 本 中 一 样 ， 亦 不 表 堆 述 。 


步骤 4 ”更 新 资源 池 和 作业 的 计算 槽 位 资源 需求 ， 包 括 Map 和 Redcue 的 资源 需求 信息 ， 会 通过 资源 池 Pool 对 象 获取 两 个 PoolSchedulable 的 对 象 : MapSchedulable 和 ReduceSchedulable， 然 后 调用 
PoolSchedulable 的 updateDemand0 方 法 完成 槽 位 资源 需求 的 更 新 。 在 更 新 过 程 中 ， 如 果 作 业 的 槽 位 需求 大 于 资源 池 本 身 的 最 大 槽 位 ， 则 将 资源 池 的 最 大 槽 位 数 赋值 给 作业 需求 槽 位 资源 数 。 


步骤 5 依据 步骤 4 计算 的 槽 位 资源 需求 来 计算 作业 的 资源 公平 共享 量 fair shares， 通 过 调用 函数 SchedulingAlgorithms.computeFairShares0 来 计算 资源 的 公平 共享 量 。 
步骤 6 ”遍历 资源 池 中 的 每 一 个 作业 ， 然 后 依据 步骤 5 计算 的 资源 公平 共享 量 fair shares 来 分 配 资源 池 中 的 共享 资源 配额 槽 位 。 


9.3.9 “作业 权重 和 资源 量 的 计算 


在 公平 调度 器 FairScheduler 的 核心 实现 中 有 几 个 非常 重要 的 控制 参数 ,分别 为 : 作业 原始 权重 、 作 业 全 局 权重 、 作 业 最 小 资源 量 、 作 业 公 平 共享 量 ， 这 四 个 参数 也 是 理解 FairScheduler 调 度 策略 的 关 
键 。 下 面 分 别 对 这 四 个 参数 的 计算 方法 进行 介绍 。 


1. 作 业 原 始 权重 
作业 原始 权重 就 是 作业 在 调度 初始 化 时 被 赋予 的 权重 值 ， 计 算 见 式 (9-1) : 


二 及 
log 2 


Wm =f" xP (9-1) 


min 


式 (9-1) 中 Wmn 就 是 资源 池 m 中 第 n 个 作业 的 原始 权重 ; Rmn 是 资源 池 m 中 第 n 个 作业 还 未 完成 的 任务 数 ; Pmn 是 相应 作业 的 优先 级 系数 ， 优 先 级 系数 对 照 表 如 表 9-1 所 示 。 


作业 原始 权重 的 计算 在 Hadoop-0.20.X 版 本 中 是 通过 函数 calculateRawWeightUobl-nProgress job，TaskType taskType) 实 现 的 ， 在 Hadoop-1.0.X 以 及 之 后 的 版 本 中 通过 函数 
getJobWeight(JoblnProgress job，TaskType taskType) 实 现 。 


2. 作 业 全 局 权重 


作业 全 局 权重 是 在 作业 原始 权重 的 基础 上 使 用 资源 池 权重 对 其 进行 的 一 种 加 权 处 理 ， 计 算 见 式 (9-2) : 


式 (9-2) 中 Wmn 就 是 资源 池 m 中 作业 n 的 原始 权重 >” 表示 资源 池 m 中 所 有 可 调度 作业 的 原始 权重 之 和 ; ”区 表示 作业 池 m 的 权重 。 


W, 
i 


作业 全 局 权重 会 在 作业 更 新 线程 UpdateThread 中 计算 并 更 新 ， 并 在 函数 updateTaskCounts(0 中 实现 。 
3. 作 业 最 小 资源 量 
作业 最 小 资源 量 是 每 次 调度 分 配给 作业 的 最 小 共享 槽 位 数 ， 计 算 时 会 依据 作业 的 全 局 权重 占 所 在 资源 池 权重 之 和 的 比例 进行 分 配 ， 有 具体 计算 见 式 (9-3) : 
Cu = x ( 9-3 ) 
>,W. 
式 (9-3) 中 参数 和 ”表示 资源 池 m 中 所 有 可 调度 作业 的 原始 权重 之 和 ;参数 W'mn 就 是 资源 池 m 中 作业 n 的 全 局 权重 ， 参 数 Cm 表示 资源 池 m 中 配置 的 可 分 配 的 计算 资源 模 位 数 。 
作业 最 小 资源 量 也 是 在 作业 更 新 线程 UpdateThread 中 计算 和 更 新 ， 并 在 遂 数 updateMinSlots0 中 实现 的 。 
4. 作 业 公 平 共享 量 
作业 公平 共享 量 是 公平 调度 器 FairScheduler 中 分 配 任 务 的 重要 依据 ， 基 于 权重 和 最 小 共享 资源 量 来 计算 ,计算 见 式 (9-4) 。 


于 / 上 W, I 


wn = p33 2 XH. (9-4 ) 


mi 
式 (9-4) 中 参数 W'mw 表 示 资源 池 m 中 作业 n 的 全 局 权重 :参数 和 ~” 表示 所 有 可 调度 作业 之 和 ;参数 Hc 表示 集群 当前 总 的 可 分 配 的 计算 资源 容量 。 


作业 公平 共享 量 的 计算 也 是 在 作业 更 新 线程 UpdateThread 中 计算 和 更 新 ， 在 Hadoop-0.20.X 版 本 中 是 在 函数 updateFairShares(ClusterStatus clusterStatus) 中 实现 的 ; 在 Hadoop-1.0.X 以 及 之 后 版 
本 中 是 在 SchedulingAlgorithms 类 的 成 员 函 数 computeFairSshares(0 中 实现 的 。 


9.3.10 ”任务 分 配 算法 


公平 调度 器 FairScheduler 的 任务 分 配 算法 也 是 通过 重 写 国 数 assignTasks(TaskTracker tracken 实 现 的 ，FairScheduler 在 给 TaskTracker 节 点 分 配 任务 时 ， 将 可 调度 的 作业 集合 按照 公平 缺额 度 从 大 到 


小 进行 排序 ， 然 后 优先 调度 那些 公平 缺额 度 高 的 作业 ， 因 为 公平 缺额 度 dificit 越 高 说 明 作 业 需 要 得 到 的 计算 资源 槽 位 和 实际 占用 的 计算 资源 模 位 差距 越 大 ， 从 公平 的 原则 来 讲 是 最 需要 优先 被 调度 并 分 配 资源 
的 。 下 面 介绍 算法 的 主要 步骤 (以 Hadoop-1.0.X 版 本 为 参考 ) : 


步骤 1 遍历 资源 池 计算 总 共 可 调度 运行 的 Map 任 务 数 runnableMaps 和 Reduce 任 务 数 runnableReduces， 以 及 当前 正在 运行 的 Map 任 务 数 runningMaps 和 Reduce 任 务 数 runningReduces。 
步骤 2 ”计算 整个 集群 可 用 的 计算 资源 槽 位 数 totalMapSlots 和 totalReduceSslots， 通 过 调用 函数 getTotalslots() 完 成 。 
步骤 3 进入 while (true) 作业 分 配 循环 ， 分 配 Map 和 Reduce 任 务 直到 分 配 结束 退出 循环 。 


1) 计算 Map 和 Reduce 任 务 是 否 可 分 配 资源 ， 通 过 布尔 变量 mapRejected 和 reduceRejected 表 示 ， 值 为 true 时 表示 拒绝 给 此 任务 分 配 资源 ; 值 为 false 时 表示 可 以 分 配 ， 拒 绝 分 配 的 条 件 有 以 下 3 种 : 
.分 配 的 任务 数 达到 了 每 次 心跳 可 以 分 配 的 任务 数 限制 。 

-正在 运行 的 任务 数 达 到 了 可 运行 的 任务 数 。 

-被 负载 均衡 器 所 拒绝 。 


2) 计算 是 否 退 出 任务 分 配 循 环 ， 退 出 任务 分 配 循 环 需要 以 下 两 个 条 件 之 一 : 


:没有 可 分 配 的 Map 或 者 Redcue 任 务 。 
是 否 同 时 分 配 Map 和 Reduce 变 量 assignMultiple 为 false， 并 且 已 经 分 配 了 一 个 任务 。 


3) 选择 分 配 哪 种 类 型 的 任务 : Map 或 者 Reduce。 首 先 会 选择 一 个 没有 被 拒绝 分 配 的 任务 类 型 ， 如 果 Map 和 Reduce 任 务 都 是 可 供 选 择 的 ， 则 选择 运行 任务 少 的 类 型 进行 分 配 资源 ， 这 样 选择 的 目的 是 
防止 任务 长 时 间 没 有 被 分 配 资 源 而 出 现 “ 饥 饿 ”现象 。 


4) 遍历 资源 池 获 取 可 供 调度 的 Map 或 者 Reduce 任 务 ， 然 后 按照 公平 共享 Fair Sharing 进 行 排序 。 
5) 遍历 排序 后 端 作业 集合 ， 更 新 相关 作业 计数 器 ， 然 后 将 任务 加 入 分 配 列表 后 退出 本 次 作业 任务 分 配 ， 分 配 任务 时 一 个 作业 一 次 只 能 分 配 一 个 任务 。 
6) 继续 while (true) 尝试 下 一 个 作业 的 任务 分 配 。 


步骤 4 ”遍历 已 经 访问 过 的 作业 集合 ， 对 于 已 经 访问 过 但 是 没有 分 配 Map 任 务 的 作业 进行 标记 ， 以 在 这 次 心跳 中 跳 过 任务 分 配 。 


9.3.11 FairScheduler 配 置 人 参数 


公平 调度 器 FairScheduler 通 过 两 种 配置 文件 来 进行 配置 管理 和 维护 ， 分 别 为 算法 核心 参数 配置 和 配额 管理 配置 : 算法 核心 参数 通过 Hadoop 的 配置 文件 mapred-site.xml 进 行 设置 ， 配 额 管理 通过 单独 
的 配置 文件 进行 配置 (默认 为 fair-scheduler.xml) ， 配 额 管理 包括 资源 池 、 最 小 共享 资源 、 运 行 作业 限制 和 抢占 超时 时 间 等 ， 这 些 参数 都 是 在 单独 的 配额 管理 文件 中 进行 配置 的 。 下 面 分 别 对 这 两 种 配置 参 


数 进行 介绍 。 
1. 算 法 核心 参数 
公平 调度 器 的 算法 核心 参数 是 在 Hadoop 的 配置 文件 napred-site.xml 中 进行 配置 的 ， 包 括 基 本 参数 和 高 级 参数 ， 通 过 对 算法 核心 参数 的 配置 来 对 FairScheduler 调 度 进 行 控制 。 


FailScheduler 基 本 参数 ， 如 表 9-3 所 示 。 


表 9-3 FairScheduler 基 本 参数 表 


数 属性 名 称 参数 意义 
mapred.fairscheduler 指定 一 个 XML 文件 的 绝对 路 径 ， 该 文件 包含 了 每 个 资源 池 的 最 小 共享 资源 、 每 个 资源 
C . 及 起 ps LN Ve 一 = 和 tL I EEC、 二 < jl Hd -4 
有 也 和 每 个 用 户 的 并 发 运行 作业 数 和 抢占 超时 时 间 。 如 条 没 有 设置 这 个 属性 ， 这 些 特 性 将 了 


allocation .file 中 
会 被 使 用 。 配 和 额 文件 格式 在 稍 后 的 配 突 管理 参数 中 进行 描述 


mapred.fairscheduler. 是 否 启 用 抢占 的 布尔 值 属性 ， 默 认为 false 


preeimption 
指定 用 哪个 作业 配置 属性 来 决定 作业 的 归属 资源 池 。 了 字符 串 格 式 ， 上 默认 : user.name， 即 
是 每 个 用 户 一 个 资源 池 ; 还 a 设置 为 group.name， 即 每 个 Unix 群 组 一 个 资源 池 ; 或 设置 
为 pool.name 作为 资源 池 的 名 字 属 性 ， 然 后 通过 添加 下 面 的 设 定 使 user.name 成 te 


<property> 


mapred.fairscheduler. PF me 
<name>pool.name</name> 


poolnameproperty 
-value>$ {user.name!</value> 


</property> 
这 样 就 可 以 对 某 些 作业 显 式 的 通过 作业 配置 属性 来 指定 资源 池 的 名 字 ( 比 如， 在 有 默认 
用 户 资 源 池 的 情况 下 ,传递 -Dpool.name=<name> 到 bin/hadoop jar) 


除了 上 述 基本 核心 参数 之 外 ，FairScheduler 还 给 用 户 提 供 了 更 多 更 高 级 的 参数 来 对 公平 调度 器 进行 控制 ， 这 些 高 级 参数 ， 如 表 9-4 所 示 。 


表 9-4 FairScheduler 高 级 参数 表 


参数 属性 名 称 


mapred.fairscheduler. 


sizebasedweight 


mapred.fairscheduler. 


preemption.only.log 


mapred.fairscheduler. 


update.interval 


mapred.fairscheduler. 


preemption.interval 


mapred.fairscheduler. 


welghtadjuster 


mapred.fairscheduler. 


loadmanager 


mapred.fairscheduler. 


参数 意义 

在 计算 作业 的 公平 共享 权重 时 考虑 作业 大 小 。 在 默认 情况 下 ,权重 只 基于 作业 的 优先 
权 。 设 置 这 个 标志 为 true 时 会 使 权重 也 考虑 作业 大 小 (所 需 任 务 数 )， 但 不 是 线性 的 (权重 
与 所 需 任 务 数 的 对 数 成 比例 )。 这 个 设 定 让 较 大 作业 在 获取 更 大 的 公平 共享 资源 的 同时 也 
能 提供 足够 的 共享 资源 给 小 作业 ， 让 它们 能 迅速 完成 。 布 尔 值 默认 为 false 

此 参数 会 使 调度 器 在 碰 到 抢占 计算 时 仅 简单 地 记录 下 它 什么 时 候 想 抢 占 一 个 任务 ， 而 
不 会 真正 抢占 任务 。 布 尔 值 默 认为 false。 这 个 属性 用 在 启用 抢占 之 前 做 一 个 抢占 的 dry 
run 是 很 有 用 的 ， 以 确保 没 把 超时 设置 得 过 于 具有 侵略 性 。 可 以 在 Jobtracker 的 输出 日 志 
(HADOOP LOG DIR/hadoop-jobtracker-*.log) 看 到 抢占 日 志 信 息 。 信 息 基 本 格式 如 下 : 

Should preempt 2 tasks for job 20090101337 0001: tasksDueToMinShare = 2, 
tasksDueToFairShare = 0 

公平 共享 资源 计算 更 新 间 阳 时间。 默认 为 500 训 秒 ， 适 用 于 小 于 500 个 市 点 的 集群 ,但 
较 大 的 值 可 以 减少 更 大 集群 的 JobTracker 的 负载 。 整 数值 ， 单 位 是 毫秒 ， 默 认为 500 

检查 任务 抢占 的 间隔 时 间 。 默 认为 15 秒 ， 适 用 于 超时 在 分 钟 数 量 级 上 的 设置 。 不 推荐 
超时 小 于 这 个 数值 ， 但 是 如 果 已 经 设置 了 这 个 超时 时 间 ， 就 可 以 使 用 这 个 值 来 做 更 多 的 抢 
占 计 算 。 然 而 小 于 5 秒 的 值 就 太 小 了 ， 因 为 它 小 于 心跳 的 间 阳 时间 了 。 整 数值 ， 单 位 是 这 
秒 ， 默 认为 15 000 

一 个 扩展 辟 ， 用 于 指定 一 个 类 去 调整 运行 中 作业 的 权重 。 这 个 类 应 当 实 现 
WeightAdjuster 接口 。 目 前 已 有 一 个 例子 实现 一 一 NewJobWeightBooster， 它 会 在 作业 生命 
周期 中 的 前 5 分 钟 增 加 作业 的 权重 ， 以 使 小 作业 能 更 快速 完成 。 要 使 用 这 个 例子 实现 ， 设 
置 weightadjuster 属性 为 类 的 全 名 ， 即 org.apache.hadoop.mapred.NewJobWeightBooster。 
NewJobWeightBooster 本 刁 提 供 了 两 个 参数 用 于 设 定 持续 时 间 和 增长 因子 : 

mapred.newjobweightbooster.factor， 新 作业 权重 的 增长 因子 ， 默 认 是 3; 

mapred.newjobweightbooster.duration， 增 长 持续 时 间 ， 单 位 是 毫秒 ， 默 认 是 300 000，5 
分 钟 

一 个 扩展 点 ， 用 于 指定 一 个 类 去 决定 在 一 个 给 定 TaskTracker 上 可 以 运行 多 少 个 Map 和 
Reduce。 这 个 类 应 当 实 现 LoadManager 接口 。 默 认 使 用 Hadoop 配置 文件 中 的 任务 负载 ， 
但 可 以 使 用 这 个 选项 使 负载 基于 如 可 用 内 存 和 CPU 利用 率 

一 个 扩展 点 ， 用 于 指定 一 个 类 去 决定 作业 内 的 哪 一 个 任务 运行 在 给 定 的 tracker 上 。 这 
个 特性 可 以 用 来 改变 本 地 化 策略 (比如 ， 让 一 些 作 业 在 特定 机 架 内 ) 或 推测 (speculative ) 


taskselector 执行 算法 (选择 什么 时 候 去 执行 推测 任务 )。 上 默认 的 实现 使 用 Hadoop 的 JobInProgress 中 
的 默认 算法 
2. 配 额 管理 参数 


公平 调度 器 的 配额 管理 包括 对 每 一 个 资源 池 配 置 最 小 共享 资源 (minimum share) 、 运 行 作业 限制 (job limit) 、 每 个 资源 池 的 权重 (weight) 和 抢占 超时 时 间 (preemption timeout) 等 进行 配 
置 。 配 置 管理 参数 并 不 是 公平 调度 器 必须 进行 配置 的 ， 只 有 在 多 用 户 、 多 资源 池 中 需要 使 用 和 默认 参数 不 一 样 时 才 需 要 进行 额外 配置 ， 该 配置 文件 默认 的 路 径 为 HADOOP_HOME/conf/fair- 
scheduler.xml。 该 配置 中 的 配置 选项 如 表 9-5 所 示 。 


表 9-5 ”FairSchedulet 配 额 管 理 参 数 表 


sh 


子 参 数 意义 

用 来 指定 该 pool 的 最 小 Map 任务 槽 位 数 
用 来 指定 该 pool 的 最 小 Reduce 任务 槽 位 数 
用 来 指定 该 pool 最 大 并 行 执行 的 Map 任务 槽 位 数 
用 来 指定 该 pool 最 大 并 行 执行 的 Reduce 任务 槽 位 数 


调度 模式 ， 可 以 是 根据 job 的 fair share 来 调度 的 fair 模式 ,或 者 是 
FIFO 模式 


pool 
用 来 指定 该 pool 中 最 大 并 行 运行 的 job 数 (默认 没有 限制 ) 


用 来 设置 该 pool 使 用 集群 资源 的 比重 。 比 如 将 该 值 配置 成 2.0， 那 么 
weight 该 pool 内 的 job 获得 集群 槽 位 的 可 能 性 就 会 两 倍 于 该 选项 为 1.0 的 pool 
中 的 job， 默认 该 选项 为 1.0 


当 current pool 中 所 使 用 的 集群 槽 位 少 于 其 min share 时 ， 最 多 多 长 
minSharePreemptionTimeout | 时 间 内 开始 从 其 他 抢占 了 别 组 槽 位 的 pool 中 将 - 槽 位 抢占 回来 ， 默 认为 
infinite 

用 来 设置 对 于 一 个 用 户 来 说 ， 最 多 可 以 并 行 执行 的 job 为 多 少 个 。 
user 常情 况 下 每 一 个 用 户 都 会 对 应 到 一 个 pool， 所 以 为 每 一 个 user De 
选项 通常 没有 必要 

一 个 全 局 的 限制 选项 ， 当 每 个 pool 没有 单独 设置 该 pool 中 最 多 能 并 


Wd 


SchedulingMode 


1]MaxJobsDefault Fe es 
es 行 运行 多 少 个 job 时 ， 用 该 选项 值 来 限制 
一 个 全 局 的 限制 选项 ， 当 每 个 用 户 没 有 单独 设置 该 pool 中 最 多 能 3 
userMaxJobsDefault i , 和 
行 运行 多 少 个 job 时 ， 用 该 选项 值 来 限制 
i 用 来 设置 默认 多 长 时 间 开 始 对 使 用 集群 槽 位 高 于 其 min share 的 pool 
defaultMinSharePreemptionTimeout 症 | 
进行 资源 抢占 
ms He , 用 来 设置 当 job 所 使 用 的 槽 位 数 低 于 其 fair share 的 一 半 后 ， 多 少时 间 
airSharePreemptionTimeou 
内 开始 资源 抢占 
defaultPoolSchedulingMode 默认 的 调度 模式 (fair | fifo) 


9.3.12 ”使 用 与 管理 


目前 的 Hadoop 版 本 中 已 经 集成 了 公平 调度 器 FairScheduler， 如 果 用 户 需要 使 用 Fair-Scheduler， 则 需要 首先 保证 hadoop-*-fairscheduler.jar 的 jar 文 件 在 HADOOP_HOME/lib 目 录 下 ,或 者 用 户 需 要 


在 HADOOP CONF_DIR/hadoop-env.sh 中 指定 环境 变量 CLASSPATH 中 包含 该 jar 文 件 。 然 后 需要 在 HADOOP_ CONF _DIR/mapred-site.xml 中 对 参数 选项 mapreduce.jobtrackertaskscheduler 进 行 配置 


来 启用 FairScheduler， 配 置 代 码 如 下 : 


<configuration> 

<property> 
<name>mapreduce.jobtracker.taskscheduler</name> 
<value>org.apache.hadoop.mapred.FairScheduler</value> 
</property> 

</configuration> 


完成 了 mapred-site.xm| 配 置 后 ， 需 要 将 修改 的 配置 文件 同步 到 所 有 节点 ， 重 新 启动 集群 后 就 可 以 通过 在 浏览 器 中 访问 http://<jobtracker URL>/scheduler 的 方式 来 确认 是 否 已 经 成 功 启动 。 


上 述 的 启用 方式 使 用 的 是 FairScheduler 的 默认 参数 ， 如 果 用 户 需要 自 定义 公平 调度 器 的 参数 并 对 设置 配额 进行 管理 ， 则 可 以 参考 9.3.11 节 的 配置 参数 进行 设置 。 下 面 通过 一 个 简单 的 配额 管理 例子 来 说 


明 如 何 使 用 公平 调度 器 的 配额 管理 ， 假 们 我 们 的 集群 资源 容量 为 100 个 计算 槽 位 ， 其 中 Map 横 位 为 60，Reduce 槽 位 为 40， 
务 的 计算 ; pool offline 用 于 线 下 挖掘 任务 。 两 个 资源 池 的 配置 需求 如 下 : 


需要 配置 两 个 资源 池 pool _ online 和 pool offline，pool_ online 资源 池 用 于 线 上 任 


(1) pool online 


-确保 资源 池 pool online 的 最 小 Map 模 位 数 为 15 和 Reduce 覃 位 数 为 10。 
ee 这 就 意味 着 ， 如 果 在 5 分 钟 内 该 资源 池 仍 然 没 有 
来 满足 资源 池 pool online 的 计算 任务 


使 用 槽 位 达到 15 个 Map 和 10 个 Redquce， 那 么 调度 器 就 要 从 别 的 超出 其 自身 min share 的 资源 池 中 抢占 计算 槽 位 


就 不 会 再 给 这 个 pool online 内 的 作业 分 配 


:限制 资源 池 pool online 最 大 运行 的 Map 任 务 数 为 35， 最 大 运行 的 Reduce 任 务 数 为 25。 这 也 就 是 意味 着 当 资 源 池 pool online 内 的 所 有 作业 加 起 来 使 用 了 35 个 Map、25 个 Reduce 后 ， 
模 位 资源 ， 即 使 在 计算 过 程 中 pool online 的 fairshare 升 高 也 不 会 。 


(2) pool offline 


-确保 资源 池 pool _ offline 的 最 小 Map 模 位 数 为 10， 最 小 Redcue 模 位 数 为 10。 


资源 池 Pool _offline 最 小 share preemption 的 时 间 为 600 秒 。 


:限制 资源 池 pool offline 最 大 运行 的 Map 任 务 数 为 25， 最 大 运行 的 Reduce 任 务 数 为 15。 


一 


对 于 普通 用 户 有 配额 需 通用 户 同 时 运行 的 作业 数 不 能 超过 3 个 ， 对 于 用 户 search 则 同时 最 多 可 以 运行 6 个 


每 个 
满足 上 述 配额 需求 的 公平 调度 器 的 配额 文件 fair-scheduler.xml 可 配置 如 下 : 


<?xm] version="1 .0"> 
<allocations> 


<pool name="pool online"> 
<minMaps>15</minMaps> 
<minReduces>10</minReduces> 
<maxMaps>35</maxMaps> 
<maxReduces>25</maxReduces> 
<minSharePreemptionTimeout>300</minSharePreemptionTimeout> 
</pool> 
<pool name="pool offline"> 
<minMaps>10</minMaps> 
<minReduces>10</minReduces> 
<maxMaps>25</maxMaps> 
<maxReduces>15</maxReduces> 


<minSharePreemptionTimeout>600</minSharePreemptionTimeout> 
</pool> 
<userMaxJobsDefault>3</userMaxJobsDefault> 
<mapreduce.job.user.name="search"> 
<maxRunningJobs>6</maxRunningJobs> 
</user> 
</allocations> 


9.4 ”容量 调度 器 


容量 调度 器 (CapacityScheduler) 是 雅虎 结合 自己 的 集群 业务 类 型 ， 提 出 的 一 种 多 用 户 调度 器 ， 这 种 调度 器 支持 多 用 户 、 多 队列 ， 每 个 队列 都 可 以 单独 配置 一 定 的 资源 量 ， 每 个 队列 采用 FIFO 策 略 ， 
可 以 看 做 是 FIFO 调 度 器 的 多 队列 版 本 。 为 了 防止 同一 个 用 户 的 作业 独占 队列 中 的 资源 ， 容 量 调度 器 会 对 同一 用 户 提交 的 作业 所 占 资源 量 进行 限定 ， 队 列 间 的 资源 分 配 以 使 用 量 作为 排列 依据 ， 使 得 容量 小 的 
队列 有 竞争 优势 ， 同 时 也 支持 延迟 调度 机 制 。 总 的 来 说 ， 容 量 调度 器 的 最 终 目 标 就 是 提高 集群 整体 的 吞吐 量 。 


四 


9.4.1 产生 背景 


pl 


容量 调度 器 也 是 一 种 经 典 的 多 用 户 调度 器 ， 和 公平 调度 器 一 样 也 是 为 了 解决 多 用 户 、 多 队列 的 用 户 需 求 ， 不 同 之 处 在 于 公平 调度 器 强调 的 是 各 个 作业 的 公平 共享 原则 ， 主 要 是 为 了 保证 资源 池 之 间 可 以 
公平 的 共享 整个 集群 资源 ， 然 而 从 整个 集群 的 资源 利用 率 的 角度 来 看 ， 公 平 调度 器 并 不 能 保证 整个 集群 的 资源 利用 率 最 高 ， 也 就 是 虽然 各 种 作业 对 资源 的 使 用 可 以 基本 达到 公平 的 原则 ， 保 证 用 户 都 可 以 公 
平 的 共享 整个 集群 的 资源 ， 但 是 仍然 存在 计算 资源 容量 利用 率 不 高 的 问题 ， 容 量 调度 器 就 是 为 了 解决 这 个 问题 而 产生 的 。 


在 容量 调度 器 中 ， 每 个 作业 被 提交 到 一 个 队列 ， 每 个 队列 分 配 整个 集群 资源 的 容量 (capacity) 的 一 定 比例 ， 队 列 中 的 作业 以 FIFO 的 方式 占用 队列 分 配 的 资源 容量 capacity。 调 度 的 基本 策略 是 首先 选 
择 一 个 容量 capacity 实 际 占用 率 最 低 的 队列 ， 这 样 最 需要 资源 的 队列 优先 调度 ， 然 后 从 队列 中 按 FIFO 方 式 选择 一 个 合适 的 作业 。 


9.4.2 ”主要 功能 
这 里 介绍 一 下 容量 调度 器 的 主要 功能 。 
1. 支 持 多 队列 多 用 户 
一 个 作业 提交 到 一 个 队列 中 ， 每 个 队列 分 配 整 个 集群 容量 的 一 定 比 例 ， 每 个 队列 可 以 限制 用 户 最 多 有 几 个 作业 能 被 初始 化 但 还 没有 开始 运行 。 
支持 多 用 户 ， 一 系列 的 综合 设置 可 以 防止 单一 的 应 用 、 用 户 占用 队列 或 集群 的 全 部 资源 ， 防 止 集群 被 单 用 户 过 度 使 用 ， 从 而 保证 了 多 用 户 可 以 共同 使 用 集群 。 
2. 层 次 化 队列 机 制 
层次 化 的 队列 支持 在 一 个 组 织 内 子 队列 的 优先 共享 资源 ， 从 而 提供 了 更 多 的 控制 和 预测 的 能 力 。 
3. 资 源 容量 保证 


从 某 种 角度 说 ， 容 量 调度 器 的 队列 实现 了 一 种 资源 的 划分 ， 所 有 的 应 用 都 会 被 指定 到 特定 的 队列 ， 这 些 应 用 所 能 使 用 的 资源 受到 队列 所 拥有 资源 的 限制 ， 管 理 员 可 以 配置 soft limits 或 者 optional hard 
limits 来 限制 队列 所 拥有 的 资源 。 


4. 作 业 权 限 控制 


每 一 个 队列 都 有 一 个 严格 的 ACL (Access Control List) 来 控制 哪些 用 户 可 以 访问 队列 ， 并 且 有 一 个 safe-guard 来 保证 用 户 不 能 够 看 或 者 修改 其 他 用 户 的 应 用 ， 而 且 每 个 队列 或 系统 都 可 以 设置 管理 员 
角色 。 


5. 弹 性 资源 分 配 


空闲 的 资源 可 以 分 配给 任何 队列 ， 这 样 可 能 会 超出 队列 的 资源 限制 。 也 就 是 说 ， 如 果 集 群 有 空闲 的 资源 ， 而 有 些 队列 需要 的 资源 超出 了 分 给 他 的 限制 ， 这 些 空 亲 的 资源 将 被 分 配给 那些 需要 的 队列 ， 这 
样 就 保证 了 资源 的 可 预测 性 和 弹性 ， 从 而 防止 了 人 工 孤 岛 ， 帮 助 实现 资源 的 优化 利用 。 


6. 运 行 时 的 控制 功能 


(1) RuntimeConfiguration: 一 些 设置 可 以 在 运行 时 进行 配置 ， 例 如 资源 分 配 的 容量 ，ACL 等 ， 这 些 都 可 以 在 运行 时 由 管理 员 设 置 ， 以 减少 对 用 户 的 影响 。 而 且 有 一 个 终端 供 管理 员 和 用 户 来 查看 当 
前 分 配 各 个 队列 的 资源 ， 管 理 员 也 可 以 在 运行 时 添加 队列 。 


(2) Drain applications: 所 谓 Drain applications 就 是 管理 员 可 以 停止 运行 的 队列 ， 同 时 保证 队列 上 的 任务 运行 完成 ， 而 新 的 任务 不 会 提交 到 队列 上 。 如 果 一 个 队列 是 stopped 状 态 ， 新 的 应 用 不 会 被 
提交 到 该 队列 或 它 的 子 队 列 上 ， 而 该 队列 中 现 有 的 任务 会 一 直 运 行 完成 。 管 理 员 也 可 以 启动 一 个 stopped 的 队列 。 


7. 基 于 资源 的 调度 

支持 资源 密集 型 的 应 用 ， 该 应 用 可 以 被 指定 分 配 超出 缺 省 设置 的 更 多 的 资源 ， 因 此 可 以 容纳 不 同 资源 需求 的 应 用 程序 ， 目 前 只 支持 内 存 资源 的 配置 。 
8. 作 业内 存 控制 

容量 调度 器 支持 作业 的 内 存 需求 ， 在 tasktracker 上 没有 任务 需要 的 足够 内 存 时 不 能 调度 该 任务 。 


9. 延 迟 调度 机 制 


和 公平 调度 器 一 样 ， 容 量 调度 器 也 支持 延迟 调度 机 制 。 延 迟 调度 机 制 本 身 就 是 为 了 解决 本 地 化 问题 从 而 提高 整个 集群 的 资源 利用 率 ， 采 用 “移动 计算 ”而 非 “ 移 动 数据 ”的 策略 ， 将 计算 任务 迁移 到 距 
离 数据 更 近 的 位 置 。 


9.4.3 ”基本 调度 策略 


容量 调度 器 的 计算 能 力 调度 示意 图 ， 如 图 9-6 所 示 。 假 定 Hadoop 集 群 中 有 100 个 计算 资源 槽 位 ， 调 度 器 中 配置 了 队列 P 和 队列 S， 队 列 P 中 配置 容量 为 60; S 队 列 中 配置 容量 为 40。P 队 列 中 最 小 配额 为 
509%， 也 就 是 P 队 列 中 可 以 同时 运行 两 个 作业 ， 每 个 作业 分 配 30 个 计算 资源 ; S 队 列 中 最 小 配额 为 22%， 也 就 是 说 可 以 同时 运行 4 个 作业 。 在 队列 之 间 也 会 共享 空闲 的 计算 资源 ， 容 量 调 度 算 法 中 最 重要 的 就 
是 在 选择 作业 时 会 天 注 作 业 所 属 的 用 户 是 否 已 经 超出 了 他 所 能 使 用 的 计算 资源 限制 ， 如 果 超 出 则 不 能 被 选中 。 和 公平 调度 器 不 同 ， 容 量 调度 器 不 支持 优先 级 抢占 ， 一 旦 一 个 作业 开始 执行 ， 那 么 在 执行 完成 
之 前 它 所 使 用 的 资源 是 不 会 被 有 更 高 优先 级 的 作业 夺 走 的 。 同 时 同一 用 户 的 作业 不 能 出 现 独占 资源 的 情况 ， 即 对 队列 中 同一 用 户 提交 的 作业 能 够 获得 的 资源 百分比 进行 了 强制 限定 。 


_ ~ 
Hadoop 集 群 。 
总 资 计 算 模 位 100 


队列 P 
配置 容量 60 
了 最 小 配 牢 50%% 


队列 S 
配置 容量 40 
最 小 配额 25% 
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图 9-6 ”计算 能 力 调度 示意 图 
容量 调度 器 还 可 以 有 效 地 对 集群 中 的 内 存 资 源 进 行 管理 ， 从 而 可 以 有 效 支持 内 存 密集 型 作业 。 如 果 一 个 作业 对 内 存 资源 需求 较 高 ， 那 么 调度 算法 就 要 保证 将 该 作业 的 相关 任务 指派 到 具有 充足 内 存 资源 
的 TaskTracker 上 执行 ， 以 避免 任务 由 于 内 存 资源 的 不 足 而 无 法 执行 。 因 此 ， 在 作业 选择 的 过 程 中 ， 计 算 能 力 调度 算法 还 需要 检查 空闲 TaskTracker 上 的 内 存 资 源 是 否 能 够 满足 作业 的 内 人 存 需 求 。 


9.4.4 CapacityScheduler 实 现 分 析 


容量 调度 器 CapacityScheduler 的 核心 实现 类 是 CapacityTaskScheduler， 类 似 FIFO 调 度 器 ，CapacityScheduler 类 也 继承 了 TaskScheduler 基 类 ， 总 体 实 现 包 括 五 个 核心 模块 : 负责 管理 配置 的 模块 
CapacitySchedulerConf、 负 监听 作业 维护 队列 的 模块 JobQueuesManager、 初 始 化 作业 模块 JoblnitializationPoller、 作 业内 存 匹配 的 模块 MemoryMatcher 和 Capacity-TaskScheduler。 容 量 调度 器 
CapacityScheduler 整 体 的 实现 架构 ， 如 图 9-7 所 示 。 
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在 图 9-7 中 可 以 清晰 地 看 到 容量 调度 器 的 核心 功能 模块 、 配 置 管 理 器 CapacitySchedulerConf 负 责 容量 调度 器 的 配置 ， 它 复 用 Hadoop 加 载 配 置 文件 的 类 Configuration 来 加 载 Capacity-Scheduler 的 独 
立 配置 文件 ， 独 立 配 置 文件 默认 为 capacity-scheduler.xml， 在 容量 调度 器 启动 时 最 先 加 载 ; JobsQueueManager 管 理 并 维护 容量 调度 器 中 的 作业 队列 信息 ， 包 括 将 作业 添加 到 队列 ， 将 完成 的 作业 从 队列 
移 除 ， 更 新 队列 信息 等 ; JoblnitializationPoller 是 作业 初始 化 模块 ， 在 CapacityScheduler 启 动 的 时 候 用 于 初始 化 用 户 提 交 的 作业 ， 为 作业 调度 做 准备 ; CapacityTaskScheduler 便 是 容量 调度 器 策略 的 核 
心 功 能 模块 ; MemoryMatcher 实 现 了 容量 调度 的 作业 内 存 控制 功能 ， 其 在 CapacityTaskScheduler 类 中 被 调用 执行 。 


在 CapacityTaskScheduler 模 块 和 JobQueuesManager 模 块 中 有 一 些 和 调度 相关 的 内 部 类 ， 主 要 是 任务 调度 相关 信息 TaskSchedulinglnfo、 队 列 相关 信息 QueueSchedulinglnfo、 任 务 调度 管理 器 
TaskSchedulingMgr， 以 及 它 的 子 类 MapSchedulingMgr、ReduceSchedulingMgr、TaskLookupResult 等 。 DO 
数 ; 队列 相关 信息 类 QueueSchedulinglnfo 主 要 用 于 保存 调度 需要 的 队列 相关 信息 ; TaskSchedulingMgr 负 责任 务 调度 ， 它 是 一 个 abstract 类 ， 实 现 了 大 多 数 公 共 的 部 分 ， 而 Map 和 Reduce 特 定 的 部 分 由 
子 类 MapSchedulingMgr、ReduceSchedulingMgr 分 别 扩展 实现 。 


9.4.5 ”CapacityScheduler 启 停 分 析 
9.4.4 节 对 容量 调度 器 的 实现 架构 进行 了 分 析 和 介绍 ， 下 面 进一步 对 CapacityScheduler 的 启动 和 停止 进行 分 析 。 
容量 调度 器 的 启动 是 通过 调用 CapacityScheduler 类 的 start(0 函 数 实现 的 ， 下 面 介 绍 主要 步骤 : 
步骤 1 通过 创建 CapacitySchedulerConf 对 象 加 载 容量 调度 器 配置 ， 容 量 调度 器 的 独立 配置 文件 名 默认 为 capacity-scheduler.xml。 


步骤 2 ”创建 队列 管理 器 对 象 queueManager， 并 获取 用 户 配置 的 队列 ， 然 后 对 队列 进行 初始 化 ， 实 现代 码 如 下 : 


// 0 

QueueManager ueManager = taskTrackerManager .getQueueManager () ; 
// 获取 用 户 配置 的 队列 

Set<String> queueNames = queueManager .getQueues () ; 

// 初始 化 队列 相关 信息 

initialize (queueManager, parseQueues (queueNames, schedConf), 
getConf (), schedConf); 


如 上 述 代码 所 示 ， 通 过 调用 initialize0 函 数 完成 队列 初始 化 ， 初 始 化 包括 以 下 内 容 : 


1) 调用 parseQueues(qdueueNames，schedConf) 进 行 队 列 分 析 ， 进 行 队列 完整 性 判断 ， 以 确保 至 少 有 一 个 队列 ， 然 后 遍历 所 有 队列 计算 所 有 队列 的 容量 比例 之 和 ， 如 果 所 有 queue 配 置 的 capacity 比 
例 之 和 不 等 于 100， 则 抛 出 异常 。 


2) 调用 initializeMemoryRelatedConf(0 初 始 化 内 存 memory 的 相关 配置 。 

3) 通过 QueueManager 获 得 Hadoop 配 置 的 队列 queues， 并 进行 初始 化 设置 。 

4) 通过 调用 queueManager.setSchedulerinfo() 函 数 设 置 调度 显示 信息 

5) 调用 mapScheduler.initialize(queuelnfoMap) 初 始 化 mapScheduler，mapScheduler 将 queuelnfoMap 中 所 有 QSI 加 入 自己 的 qsiForAssigningTasks 列 表 中 。 
6) 调用 reduceScheduler.initialize(queuelnfoMap) 初 始 化 reduceScheduler， 与 Map 相 同 。 


步骤 3 向 JobTracker 注 册 一 个 JoblnProgressListener: jobQueuesManager， 进 行 监听 控制 。 


taskTrackerManager.addJobInProgressListener (jobQueuesManager); 


步骤 4 ”创建 初始 化 对 象 JoblnitializationPoller， 初 始 化 并 以 后 台 守 护 进 程 启动 初始 化 线程 JoblnitializationPoller， 实 现代 码 如 下 : 


if (initializationPoller == null) { 

en 
this.initializationPoller = new JobInitializationPoller( 
jobQueuesManager, schedConf, queueNames, taskTrackerManager); 


initializationPoller.init (queueNames.size(), schedConf); 
initializationPoller.setDaemon (true); // 设置 为 后 台 守 护 线程 
initializationPoller.start (); // 启动 初始 化 线程 


步骤 5 ”向 JobTracker 的 HTTP Server 注 册 FairSchedulerServlet， 从 而 启动 基于 Web 的 调度 器 可 视 化 管理 服务 。 


JobTracker 停 止 调度 器 时 ， 通 过 调用 CapacityTaskScheduler 的 terminate() 国 数 注 销 启动 时 注册 的 JoblnProgressListener: jobQueuesManager， 并 终止 JoblnitializationPoller 后 台 守 护 线程 。 


9.4.6 ”作业 监听 控制 


作业 监听 控制 是 由 JobQueuesManager 类 负责 的 。JobQueuesManager 维 护 每 个 队列 queue 对 应 的 队列 信息 列表 jobQueues， 队 列 信息 列表 jobQueues 的 结构 如 下 : 


private Map<String, CapacitySchedulerQueue> jobQueues = 
new HashMap<String, CapacitySchedulerQueue> () ， 


1. 作 业 添 加 

Hadoop 用 户 将 作业 提交 到 JobTracker 后 通过 调用 JobQueuesManager.jobAdded(job) 将 job 加 到 jobQueues 中 对 应 队列 信息 的 等 待 队 列 中 ， 并 调用 CapacityTaskScheduler.job-Added(job)。 
CapacityTaskSschedulerjobAddedkiob) 更 新 作业 job 在 queuelnfoMap 中 对 应 QsI 的 numJobsByUser。 
2. 作 业 更 新 

当 作业 发 生变 化 时 ，JobTracker 就 会 通过 调用 JobQueuesManager.jobUpdated(event) 来 更 新 队列 的 作业 信息 ， 作 业 更 新 包括 以 下 三 种 情况 : 

1) 如 果 是 作业 优先 级 或 者 开始 时 间 的 变化 ， 就 对 jobQueues 中 对 应 作业 信息 的 waitingJobs 或 者 runningJobs 重 新 排序 。 

2) 如 果 是 作业 状态 发 生变 化 ， 作 业 开 始 running， 则 将 作业 加 到 jobQueues 中 对 应 作业 信息 的 runningJobs 中 ， 而 将 它 从 waitingJobs 移 除 则 由 JoblnitializationPoller 完 成 。 


3) 如 果 是 作业 状态 发 生变 化 ， 作 业 完成 (SUCCEDEDI]|IFAILEDI|KILLED) ， 将 作业 从 jobQueues 中 对 应 作业 信息 的 runningJobs 和 waitingJobs 中 移 除 ， 并 调用 
CapacityTaskschedulerjobCompleted(job)。 函 数 CapacityTaskschedulerjobCompleted(ob) 更 新 作业 job 在 queuelnfoMap 中 对 应 QslI 的 numJobsByUser， 即 mapTSI.numslotsOccupiedByUser、 


reduceTSl.numslotsOccupied-ByUser 等 信息 。 


3. 作 业 删 除 


作业 完成 时 会 调用 jobRemoved() 函 数 将 作业 移 除 队 列 ， 由 于 作业 完成 时 JobQueuesManagerjobUpdated(event) 已 经 对 完成 的 作业 进行 了 处 理 ， 所 以 函数 JobQueuesManagerjobRemoved() 什 么 都 


不 做 。 


9.4.7 ”作业 初始 化 分 析 


JoblnitializationPoller 负 责 作业 的 初始 化 ， 包 括 一 个 主 轮 询 线程 和 多 个 work 线 程 一 起 共同 初始 化 作业 ， 线 程 个 数 通 过 mapred.capacity-scheduler.init-worker-threads 配 置 。 一 个 worker 线 程 负责 固 
定 的 一 个 或 多 个 队列 ， 如 果 配 置 的 线程 数 大 于 或 等 于 队列 数 ， 那 么 只 启动 和 队列 数 相 等 的 线程 ， 一 个 线程 负责 一 个 队列 。 将 队列 分 配给 worker 线 程 的 工作 在 调度 器 启动 初始 化 线程 JoblnitializationPoller 时 
完成 。 


JoblnitializationPoller 的 主 轮 询 线程 每 隔 一 段 时 间 (默认 是 5s， tt capacity-scheduler.init-poll-interval 进 行 自 定义 配置 ) 清理 已 经 初始 化 的 作业 ， 将 它们 从 
JobQueuesManager 的 waittingjobs 中 清除 ， 然 后 从 各 个 队列 中 选 出 等 待 初始 化 的 作业 ， 交 给 worker 绪 程 ，worker 线 程 调 用 JoblnProgress.initJob(0 了 数 完成 实际 初始 化 。 选 择 待 初始 化 作业 的 时 候 会 考 
虑 用 户 最 多 初始 化 但 还 未 运行 的 作业 数 限制 。 


由 于 作业 初始 化 后 大 量 的 TasklnProgress 和 其 他 数据 结构 会 占用 内 存 ， 因 此 容量 调度 器 会 限制 单个 用 户 同时 初始 化 的 作业 数目 。 这 个 数目 默认 是 量 调度 器 的 参数 选项 mapred.capacity- 
scheduler.default-maximum-initialized-jobs-per-user 指 定 的 ， 每 个 队列 queue 可 以 单独 配置 。 


9.4.8 ”任务 分 配 算法 


H 


和 公平 调度 器 类 似 ， 容 量 调度 器 的 任务 分 配 算法 是 在 CapacityTaskScheduler 核 心 实现 类 的 成 员 函 数 assignTasks0 中 实现 的 ， 主 要 的 任务 分 配 算 法 步骤 如 下 : 


Ls] 


又 1 更 新 集群 的 capacity 和 tasktracker 正 在 运行 和 最 多 能 运行 的 Map 和 Reduce 任 务 数 。 


中 


步骤 2 调用 遂 数 updateQSIObjects() 更 新 queuelnfoMap 中 所 有 QSI 的 计数 和 QSI 中 TSI 的 计数 。 


AN 


AN 


步骤 3 ”比较 tasktracer 的 Map 和 Reduce 空 闲 槽 位 ， 哪 种 多 就 选择 先 调度 哪 种 任务 ， 相 等 时 优先 调度 Map 任 务 。 


在 调度 Map 任 务 时 ， 调 用 mapScheduler 的 updateCollectionOfQsls() 函 数 对 它 的 qsiForAssi-gningTasks 重 新 排序 ， 通 过 mapScheduler.assignTasks() 国 数 党 试 找 一 个 Map 任 务 ， 如 果 找 到 就 返回 包 
含 这 个 任务 的 列表 ， 否 则 尝试 调度 Reduce 任 务 ， 但 是 找 不 到 Reduce 时 不 再 重 斌 Map 任务。 调度 Redcue 任 务 的 过 程 和 调度 Map 任 务 的 过 程 基本 相同 ， 这 里 不 表 袭 述 。 


步骤 4 ” 找 不 到 Map 和 Reduce 任 务 ， 返 回 空 。 在 选择 任务 的 时 候 ，CapacityTask-Scheduler 调 用 了 mapScheduler 和 reduceScheduler 的 assignTasks0 函 数 ， 这 个 函数 在 TaskSche-dulingMgr 中 定 
义 ， 有 具体 方法 如 下 。 


1) 对 qsiForAssigningTasks 中 的 QSI 依 次 调用 getTaskFromQueue 获 取 任务 ， 因 为 QSI 是 按照 runningTasks/capacity 排 序 的 ， 所 以 优先 选择 最 需要 slot 的 队列 调度 。 


通过 schedulerjobQueuesManager 获 取 QSsl 中 正在 运行 的 作业 ， 这 些 作 业 是 按照 优先 级 和 开始 时 间 排 序 的 ， 对 每 个 running 的 作业 执行 下 面 步骤 。 


: 先 检 查 该 队列 中 用 户 占用 的 计算 槽 位 sJot 是 否 超过 了 限制 ， 超 过 限制 继续 下 一 个 作业 ， 该 队列 中 用 户 占 用 的 slot 不 能 超过 (currentCapacity/ 用 户 总 数 ) 和 (currentCapaci ty* 配 置 的 用 户 最 多 占用 队列 资源 百分比 ) 。 如 果 队 
列 当 前 占用 的 slot 小 于 capacity 则 currentCapacity=capacity,， a ty= 占 用 的 slot+ 改 作业 一 个 任务 需要 的 slot， 这 样 一 个 队列 就 可 以 占用 比 它 的 配置 容量 capacity 更 多 的 slot。 


:调用 scheduler .memoryMatcher .matchesMemoryRequirements 检 查 tasktracker 是 否 有 足够 的 内 存 运 行 这 个 作业 。 


如 果 没 有 足够 的 内 存 ， 但 是 该 作业 有 pending 或 者 预测 执行 的 任务 ， 不 再 尝试 下 一 个 作业 ， 而 是 返回 TASK_FAILING_MEMORY_REQUIREMENT， 这 样 可 以 防止 队列 中 内 存 要 求 高 的 作业 被 饿 死 ， 但 是 
也 可 能 导致 后 面 的 作业 长 时 间 不 能 调度 ; 如 果 有 足够 的 内 存 ， 调 用 JoblnProgress 的 obtainNewMapTask 或 obtainNewReduceTask 获 取 一 个 任务 ， 如 果 得 到 任务 ， 则 返回 TASK_ FOUND， 否则 继续 下 一 个 
作业 。 


如果 以 上 操作 在 所 有 作业 中 都 找 不 到 任务 ， 则 再 遍历 一 次 ， 但 是 这 一 次 不 再 进行 用 户 作 业 数 限制 的 检查 。 


2) 如 果 获 取 任 务 的 结果 是 NO_ TASK_ FOUND， 则 继续 下 一 个 QSl。 


3) 如 果 获 取 任 务 的 结果 是 TASK_ FOUND 或 者 TASK_FAILING MEMORY REQUIREMENT， 则 将 其 返回 


9.4.9 内 和 存 匹 配 机 制 


内 存 匹 配 机 制 是 容量 调度 器 的 一 个 新 增 功能 ， 在 MemoryMatcher 类 中 实现 ，MemoryMatcher 会 判断 tasktracker 上 的 内 存 是 否 满足 将 要 调度 的 Map 任 务 的 内 存 需求 。 在 判断 时 先 计 算出 tasktracker 
上 运行 的 Map 任 务 占用 的 内 存 总 量 ， 也 就 是 所 有 Map 任 务 的 memoryForMapTask 之 和 ， 然 后 检查 已 占用 的 内 存 总 量 和 将 要 调度 的 Map 任 务 的 memoryForMapTask 加 起 来 是 否 小 于 tasktracker 上 Map 任 务 
可 用 内 存 总 量 ， 也 就 是 最 大 的 Map 任 务 数 *:memSizeFor-ReduceSlotOnJT。 


在 容量 调度 器 的 实现 过 程 中 内 存 匹配 是 一 个 静态 过 程 ， 并 没有 统计 tasktracker 上 实际 的 内 存 使 用 情况 ， 它 的 前 提 条 件 是 任务 在 运行 的 时 候 使 用 的 内 存 和 它 配置 的 要 相符 。 如 果实 际 使 用 比 配置 的 少 ， 任 
务 会 占用 多 余 的 槽 位 ; 如 果实 际 使 用 比 配置 的 多 ， 则 可 能 导致 tasktracker 内 存 不 够 。 因 此 在 实际 生产 环境 下 ， 要 使 用 容量 调度 器 的 内 存 匹 配 功 能 往往 需要 结合 Linux 系 统 中 的 limit 功 能 来 防止 tasktracker 内 
存 不 足 的 问题 。 


在 使 用 容量 调度 器 的 内 存 匹 配 功能 时 还 需要 在 JobTracker 中 配置 4 个 参数 ， 具 体 参 数 ， 如 表 9-6 所 示 。 


表 9-6 ”内存 匹配 参数 表 


参数 属性 名 称 参数 意义 
mapred.cluster.map.memory.mb -个 Map 槽 位 对 应 tasktracker 上 的 内 存 memSizeForMapSlotOnJT 
mapred.cluster.reduce.memory.mb -个 Reduce 档 位 对 应 tasktracker 上 的 内 存 memSizeForReduceSlotOnJT 
mapred.cluster.max.map.memory.mb -个 Map 任务 最 大 的 内 存 limitMaxMemForMapTasks 
mapred.cluster.max.reduce.memory.mb -个 Reduce 任务 最 大 的 内 存 limitMaxMemForReduceTasks 


用 户 在 提交 作业 时 需要 指定 以 下 两 个 内 存 参数 : 
(1) 一 个 Map 任 务 需要 的 内 存 memoryForMapTask(mapred.job.map.memory.mb)。 
(2) 一 个 Reduce 任 务 需要 的 内 存 memoryForReduceTask(mapred.job.reduce.memory.mb)。 


上 述 的 6 个 参数 的 默认 值 都 是 -1， 在 提交 作业 时 JobTracker 会 检查 是 否 启用 了 内 存 限 制 ( 表 9-6 中 的 4 个 参数 都 不 等 于 -1 就 是 启用 ) ， 如 果 启 用 了 然后 判断 memoryForMapTask 和 


memoryForReduceTask 是 否 不 等 于 -1， 在 不 等 于 -1 的 情况 下 还 需要 验证 参数 memoryForMap-Task 和 memoryForReduceTask 是 否 分 别 小 于 等 于 limitMaxMemForMapTasks 和 limitMaxMem- 
ForReduceTasks， 如 果 不 是 ， 则 抛 出 异常 。 


9.4.10 ”配置 与 使 用 


在 使 用 容量 调度 器 之 前 首先 需要 将 容量 调度 器 安装 并 部 署 到 Hadoop 和 集群 中 ，Hadoop 的 社区 版 本 中 已 经 集成 了 容量 调度 器 ， 源 代码 位 于 ADOOP_HOME/src/contrib/capacity-scheduler 目 录 中 ， 用 
户 可 以 进入 源 代码 目录 使 用 ant 自 行 编译 ， 或 者 直接 使 用 已 经 编译 好 的 JAR 文 件 ，JAR 文 件 名 格式 为 : hadoop-capacity-scheduler-*.jar， 安 装 部 署 时 需要 将 这 个 JAR 文 件 复制 到 HADOOP_HOME/Ilib 目 录 下 
或 者 用 户 需 要 在 HADOOP CONF _DIR/hadoop-env.sh 中 指定 环境 变量 CLASSPATH 中 包含 该 JAR 文 件 。 然 后 需要 在 HADOOP CONF_DIRVMmapred-site.xml 中 对 参数 选项 
mapreduce.jobtracker.taskscheduler 进 行 配 置 来 启用 容量 调度 器 ， 具 体 的 配置 代码 如 下 : 


<configuration> 

<property> 

<name>mapreduce.jobtracker.taskscheduler</name> 
<value>org.apache.hadoop.mapred.CapacityTaskScheduler</value> 
</property> 

</configuration> 


完成 了 mapred-site.xml 配 置 后 ， 需 要 将 修改 的 配置 文件 同步 到 所 有 节点 ， 重 新 启动 集群 后 就 可 以 通过 在 浏览 器 中 访问 http://<jobtracker URL>/scheduler 来 确认 是 否 已 经 成 功 启动 。 


上 述 启用 方式 使 用 的 是 公平 调度 器 的 默认 人 参数， 默认 仅 有 一 个 default 队 列 ， 用 户 可 以 在 容量 调度 器 的 独立 配置 文件 capacity-scheduler.xml 中 自 定 义 参 数 增加 队列 以 及 每 个 队列 的 配额 。 对 于 每 一 个 队 
列 ， 配 置 参数 的 形式 是 mapred.capacity-scheduler.queue.${queuename}.${confitem}， 其 中 队列 名 ${queuename} 与 Hadoop 配 置 中 的 队列 名 对 应 ，${confitem} 是 具体 的 配置 项 ， 详 细 参 数 及 其 意义 如 
表 9-7 所 示 。 


capacity 队列 分 配 整 个 集群 capacity 的 白 分 比 ， 可 以 是 浮 点 数 

队列 的 最 大 容量 限制 ， 默认 值 为 -1， 就 是 没有 限制 的 ， 也 意味 大 一 个 队列 可 以 
使 用 群集 的 完整 能 力 。 一 个 队列 的 最 大 容量 TS 

a 列 中 每 个 用 户 最 多 能 使 用 队列 容量 的 百分比 ， 实 际 调度 中 单个 用 户 能 使 用 队列 
容量 的 百分比 是 该 配置 项 和 1 oe 用户 数 的 最 大 值 ， 默认 是 100 


maximum-capacity 


minimum-user-limit-percent 


user-limit-facto 单个 用 户 可 以 获取 的 槽 位 数 是 所 属 队 列 的 整数 倍 ， 默 认 情 况 下 这 个 参数 设置 为 
ser-limit- T -ea 

1， 它 确保 一 个 用 户 不 能 获取 超 ; 寸 该 队列 配置 能 力 的 槽 位 加 
supports-priority 队列 是 否 支 持 作 业 优 先 级 ，true 表示 支持 ， 默 认为 false， 表 示 不 支持 


除了 上 述 容量 调度 器 的 基本 参数 之 外 ， 还 有 和 作业 初始 化 相关 的 参数 ， 具 体 参 数 ， 如 表 9-8 所 示 。 


表 9-8 容量 调度 器 作业 初始 化 参数 表 


参数 属性 名 称 参数 意义 

mapred.capacity-schedulermaximum-system-jobs| 限制 每 个 队列 可 以 同时 初始 化 的 最 大 作业 数目 ， 正 比 于 队列 容量 
mapred.capacity-scheduler.queue.<queue-name>. 限制 一 个 队列 中 可 以 同时 初始 化 的 最 多 任务 数目 ， 如 条 超过 了 
maximum-initialized-active-tasks 这 个 数目 限制 则 会 在 磁盘 上 排队 等 符 
mapred.capacity-scheduler.queue.<queue-name>. 限制 在 队列 中 每 个 用 户 可 以 同时 初始 化 的 任务 数目 ， 如 果 用 户 
maximum-initialized-active-tasks-per-user 超过 这 个 限制 则 会 在 磁盘 上 排队 等 符 

限制 队列 中 被 调度 带 接 受 的 作业 数目 ， 确 定 为 maximum- 
system-jobs * queue-capacity 的 多 少 倍 ， 如 果 提 交 的 作业 数目 超过 

个 限制 就 会 被 调度 融 拒 绝 ， 坎 认为 10 


mapred.capacity-scheduler.queue.<queue-name>. 


init-accept-Jobs-factor 


运用 表 9-8 中 的 作业 初始 化 参数 就 可 以 进一步 控制 容量 调度 器 的 作业 初始 化 相关 参数 。 
下 面 通过 一 个 具体 的 容量 调度 器 配置 的 例子 说 明 容 量 调度 器 的 自 定义 参数 使 用 情况 。 


假定 有 一 个 集群 ， 划 分 为 两 个 队列 : queue_online 和 queue offline， 容 量 分 别 为 60 和 40， 也 就 是 queue_online 占 集群 总 槽 位 资源 容量 的 60%; 队列 queue_offline 占 集群 中 槽 位 资源 容量 的 40%， 同 
时 参考 容量 调度 器 参数 表 9-7 和 表 9-8 进 行 配置 ， 具 体 配 置 代码 如 下 : 


<configuration> 
<!-—- System limit, across all queues --> 
<property> 
<name>mapred.capacity-scheduler .maximum-system-jobs</name> 
<value>500</value> 
</property> 
<!-- queue: queue online --> 
<property> 
<name>mapred.capacity-scheduler .queue. 
queue online.capacity</name> 
<value>60</value> 
</property> 
<property> 
<name>mapred.capacity-scheduler.queue. queue online.supports-priority</name> 
<value>true</value> 
</property> 
<property> 
<name>mapred.capacity-scheduler.queue. queue online. 
minimum-user-limit-percent</name> 
<value>20</value> 
</property> 
<property> 
<name>mapred.capacity-scheduler.queue. queue online.user-limit-factor</name> 


<value>10</value> 
</property> 
<property> 
<name>mapred.capacity-scheduler.queue. queue online.maximum-initialized-— 
active-tasks</name> 
<value>10000</value> 
</property> 
<property> 
<name>mapred.capacity-scheduler.queue. queue online.maximum-initialized-— 
active-tasks-per-user</name> 
<value>5000</value> 
</property> 
<property> 
<name>mapred.capacity-scheduler.queue. queue online.init-accept-jobs-factor</ 
name> 
<value>50</value> 
</property> 
<!-- queue: queue offline --> 
<property> 和 
<name>mapred.capacity-scheduler.queue. queue offline.capacity</name> 
<value>40</value> 
</property> 
<property> 
<name>mapred.capacity-scheduler.queue. queue offline.supports-priority</name> 
<value>true</value> 
</property> 
<property> 
<name>mapred.capacity-scheduler.queue. queue offline.minimum-user-limit— 
percent</name> 
<value>20</value> 
</property> 
<property> 
<name>mapred.capacity-scheduler.queue. queue offline.user-limit-factor</name> 
<value>1</value> 加 
</property> 
<property> 
<name>mapred.capacity-scheduler.queue. queue offline.maximum-initialized- 
active-tasks</name> 


<value>10000</value> 
</property> 
<property> 
<name>mapred.capacity-scheduler.queue.queueB.maximum-initialized-active- 
tasks-per-user</name> 
<value>5000</value> 
</property> 
<property> 
<name>mapred.capacity-scheduler.queue. queue offline.init-accept-jobs-factor</ 
name> 


<value>10</value> 
</property> 
</configuration> 


9.5 ”调度 器 对 比分 析 

在 前 面 的 内 容 中 对 目前 Hadoop 内 置 的 三 个 调度 器 进行 了 详细 分 析 ， 每 个 调度 器 都 有 各 自 的 特点 ， 下 面 从 多 个 方面 进行 对 比分 析 。 
9.5.1 ”调度 策略 对 比 

调度 策略 包括 队列 选择 、 作 业 选 择 和 任务 分 配 ， 以 下 从 这 三 点 进行 对 比分 析 。 
1. 队 列 选 择 


最 简单 的 FIFO 调 度 器 仅 有 一 个 队列 ， 不 需要 进行 队列 选择 公平 调度 器 而 是 依据 Fair Sharing 公 平 排序 算法 对 队列 进行 排序 作为 后 续 作 业 选 择 的 依据 ; 容量 调度 器 则 是 依据 队列 的 资源 占用 率 优先 选择 调 
度 资源 占用 率 低 的 队列 。 


2. 作 业 选 择 
FIFO 是 按照 作业 优先 级 和 提交 时 间 的 先进 先 出 进行 调度 执行 的 ;公平 调度 器 则 依据 各 作业 之 间 按 照 权 重 公平 共享 所 有 资源 ; 而 容量 调度 器 是 在 队列 内 部 则 使 用 FIFO 原 则 调度 进行 作业 选择 和 任务 分 配 。 
3. 任 务 分 配 


Hadoop 以 心跳 时 间 片 为 单位 进行 轮 询 分 配 任务 ， 在 一 次 心跳 时 间 FIFO 调 度 器 最 多 可 以 分 配 多 个 Map、1 个 Reduce 作 业 ， 多 个 Map 作 业 分 配 不 能 超过 平均 负载 ; 对 于 公平 调度 器 ， 如 果 配 置 assign 
Multiple 为 true， 则 每 次 心跳 最 多 分 配 1 个 Map、1 个 Reduce 作 业 ; 而 容量 调度 器 每 次 心跳 最 多 分 配 1 个 Map 或 1 个 Reduce 作 业 。 


9.5.2 ”队列 和 优先 级 


FIFO 仅 支持 单 队列 ， 公 平 调度 器 和 容量 调度 器 都 是 支持 多 队列 、 多 用 户 的 调度 器 。 公 平 调度 器 和 容量 调度 器 也 有 不 同 之 处 ， 公 平 调度 器 以 资源 池 为 单位 划分 集群 资源 (设置 一 个 队列 对 应 一 个 资源 池 时 
也 可 以 认为 以 队列 划分 集群 资源 ) ， 而 容量 调度 器 是 以 队列 划分 资源 的 。 从 队列 组 织 上 来 分 析 ， 公 平 调度 器 和 容量 调度 器 都 是 树 状 队列 组 织 形式 ， 在 ACL 权 限 控制 上 这 两 个 调度 器 的 子 队列 都 是 可 以 继承 父 
队列 的 ACL 权 限 的 ， 不 同 之 处 在 于 公平 调度 器 中 父子 队列 没有 资源 限制 参数 的 继承 ， 而 容量 调度 器 中 父 队列 的 容量 限制 参数 可 以 限制 子 队 列 的 容量 。 


在 优 务 级 上 ，FIFO 支 持 五 级 优先 级 ， 公 平 调度 器 可 以 通过 作业 优先 级 影响 权重 ， 高 优先 级 作业 的 权重 是 其 低 一 级 的 两 舍 ，NORMAL 的 权重 是 1; 而 容量 调度 器 在 一 个 队列 内 部 支持 五 级 优先 级 调度 。 
9.5.3 ”资源 分 配 保证 


FIFO 由 于 是 单 队列 调度 器 ， 因 此 不 能 保证 作业 的 资源 分 配 。Fair 调 度 器 允许 配置 一 个 资源 池 pool 最 少 能 得 到 的 槽 位 ， 这 些 槽 位 按 权重 分 给 这 个 资源 池 中 运行 的 作业 ， 但 是 如 果 没 有 空闲 的 槽 位 可 用 ， 这 
些 分 到 最 少 槽 位 的 作业 也 不 能 马上 调度 ， 而 只 是 增加 它 的 缺额 度 (dificit) ， 当 有 任务 结束 空闲 出 槽 位 的 时 候 ， 这 些 缺 额度 较 大 的 作业 才 有 更 多 的 机 会 被 调度 。 


对 于 容量 调度 器 在 Hadoop-0.20.X 之 前 ， 容 量 调度 器 保证 每 个 队列 分 配 的 容量 配额 在 需要 时 一 定 能 用 到 ， 如 果 队 列 的 容量 配额 没有 得 到 保证 超过 一 段 时 间 后 就 开始 回收 资源 ， 回 收 资源 的 时 候 会 杀 死 那 
些 占 用 该 队列 容量 的 作业 。 但 是 Hadoop-0.20.X 为 了 简化 代码 将 这 个 功能 删除 了 ， 只 有 等 到 占用 capacity 的 任务 结束 后 有 资源 空 帮 时 队列 的 容量 才能 得 到 保证 (可 参 
考 http://issues.apache.org/jira/browse/HADOOP-5726) 。 


9.5.4 作业 限制 


FIFO 和 公平 调度 器 都 使 用 EagerTasklnitializationListener 线 程 初始 化 作业 ， 其 最 新 版 本 采用 线程 池 的 方式 ， 尚 不 限制 初始 化 作业 数 ， 但 是 公平 调度 器 支持 限制 用 户 或 者 资源 池 同 时 运行 的 作业 数 。 


容量 调度 器 同时 支持 限制 单个 用 户 最 多 初始 化 但 未 运行 的 作业 数 和 占用 队列 的 槽 位 比例 ， 这 种 限制 都 是 在 一 个 队列 内 部 的 限制 ;对 占用 模 位 比例 的 限制 在 选择 任务 调度 时 进行 ;对 初始 化 作业 数 的 限制 
在 初始 化 作业 的 线程 中 进行 。 作 业 初 始 化 也 是 采用 多 线程 方式 ， 一 个 线程 负责 一 个 或 多 个 队列 。 


9.5.5 ”配置 管理 


FIFO 调 度 器 仪 支持 单 队 列 ， 由 于 调度 策略 简单 ， 也 没有 用 户 可 控制 的 调度 策略 参数 ， 因 此 并 没有 独立 的 配置 文件 。 


公平 调度 器 拥有 独立 的 配置 文件 fair-scheduler.xml， 且 使 用 自身 的 配置 文件 加 载 任务 ， 支 持 运 行 时 修改 配置 来 调整 调度 器 的 参数 ， 但 同时 公平 调度 器 的 核心 参数 需要 在 Hadoop 的 配置 文件 napred- 
site.xml 中 配置 ， 是 静态 的 ， 不 能 在 运行 时 修改 。 


容量 调度 器 也 有 自己 的 独立 配置 文件 capacity-schedulerxml， 配 置 文件 中 的 队列 与 Hadoop 的 配置 文件 napred-site.xml 中 的 队列 要 对 应 ， 它 使 用 了 Hadoop 加 载 配置 文件 的 类 。 


9.5.6 扩展 性 支持 


公平 调度 器 对 外 提供 了 权重 调整 (WeightAdjuster 类 ) 、 任 务 选择 (TaskSelector 类 ) 、 负 载 均衡 (LoadManager 类 ) 三 个 模块 的 扩展 接口 ， 用 户 可 以 利用 这 三 个 接口 实现 满足 执行 特定 需求 的 新 类 
来 代 蔡 默认 的 调度 模块 。 而 FIFO 和 容量 调度 器 没有 类 似 的 可 扩展 接口 ， 用 户 只 能 重 写 调度 相关 遂 数 或 类 来 实现 自 定义 的 需求 。 


9.5.7 ”资源 抢占 和 延迟 调度 


资源 抢占 是 Hadoop 作 业 调 度 器 的 一 个 重要 特性 ， 目 前 FIFO 和 容量 调度 器 不 支持 资源 抢占 功能 ， 而 公平 调度 器 支持 资源 抢占 功能 。 


延迟 调度 可 以 使 作业 放弃 非 本 地 资 化 调度 的 机 会 ， 等 待 本 地 化 调度 ， 此 策略 可 以 提高 数据 的 本 地 化 运行 效率 ， 进 而 提高 整个 集群 的 执行 效率 。FIFO 不 支持 延迟 调度 机 制 ， 公 平 调度 器 和 容量 调度 器 均 支 
持 延 迟 调度 ， 不 同 之 处 在 于 其 实现 方式 不 同 。 


9.5.8 ” 优 缺 点 分 析 


上 述 内 容 从 不 同 的 角度 对 三 种 调度 器 进行 了 分 析 ， 通 过 分 析 可 以 了 解 三 种 调度 器 的 异同 。 在 此 基础 上 总 结 一 下 这 三 种 调度 器 的 优 缺 点 ， 具 体内 容 ， 如 表 9-9 所 示 。 


表 9-9 ”三 种 调度 器 的 优点 和 缺点 


调度 器 优点 缺点 
和 级 作业 马 上 运 1 了 ， 吞 吐 量 大 ; 
| 1 纪 || 本 ] 日 | 车 
FIFO 调度 效率 高 ， 一 次 可 以 分 配 多 个 Map 低 优先 : 人 和 作 | : 待 时 | ] 较 长 


个 能 提 将 源 人 
任务 不 能 提供 资源 保证 


每 个 队列 能 提供 一 定 的 资源 保障 ; 不 能 提供 可 靠 的 资源 保证 ; 
Fair Scheduler 能 限制 初始 化 和 运行 的 作业 数 ; 添加 或 减少 节点 对 每 个 队列 的 容量 都 会 有 景 
文 持 对 内 存 匹 配 油 度 相关 信息 分 敌 在 几 个 数据 结构 中 ， eit 洁 
各 个 作业 公平 共有 至 资源 ; 
可 运行 时 更 新 配置 ; 很 多 作业 同时 运行 会 产生 大 量 的 中 间 绩 朱 ; 


CapacityScheduler 
Bem) Web 页 面 中 查看 和 调整 调度 策略 ; 不 能 提供 可 徘 的 资源 保证 


是 供 三 个 扩展 模块 


9.6 ”其 他 调度 器 


在 上 述 几 节 的 内 容 中 对 Hadoop 的 内 置 调 度 器 进行 了 详细 的 介绍 ， 除 了 内 置 的 三 种 常用 的 调度 器 之 外 ， 还 有 基于 虚拟 集群 划分 的 HOD 调 度 器 以 及 针对 异 构 环境 下 的 LATE 调 度 器 ， 下 面 对 这 两 种 经 典 的 调 
度 器 进行 简要 的 介绍 。 


9.6.1_HOD 调 度 器 


Hadooop 作 业 调 度 问 题 本 质 上 还 是 底层 资源 的 分 配 问题 。HOD (Hadoop On Demand) 调度 器 就 是 从 虚拟 集群 资源 划分 的 角度 解决 Hadoop 的 调度 问题 ， 通 过 HOD 可 以 在 大 型 物理 集群 上 提供 虚拟 
Hadoop 集 群 系统 。HOD 使 用 Torque 资 源 管理 器 分 配 节 点 ， 由 分 配 节 点 组 成 的 每 个 虚拟 Hadoop 集 群 具有 独立 的 Hadoop Map/Reduce 和 HDFS 的 守护 进程 ， 因 此 HOD 会 自动 为 Hadoop 守 护 进 程 和 客户 端 
生成 合适 的 配置 文件 (包括 core-site.xml、mapred-site.xml、hdfs-site.xml 等 ) 。 简 而 言 之 ，HOD 使 管理 员 和 用 户 能 轻松 地 快速 搭建 和 使 用 Hadoop。 对 于 Hadoop 开 发 人 员 和 测试 人 员 来 说 ，HOD 也 是 
非常 有 用 的 一 个 工具 ， 他 们 可 以 使 用 HOD 共 享 一 个 物理 集群 来 测试 各 自 的 Hadoop 版 本 。 


HOD 依 赖 资源 管理 器 (RM) 来 分 配 节点 ， 这 些 节点 用 于 运行 Hadoop 实 例 。 目 前 ，HOD 采 用 的 是 Torque 资 源 管理 器 。 


HOD 系 统 架 构 包 合 的 基本 组 件 如 下 : 


.一 个 资源 管理 器 〈 可 能 同时 附带 一 个 调度 程序 ) 。 
:各 种 HOD 的 组 件 。 


-Hadoop Map/Reduce 和 HDFS 守 护 进程 。 


通过 与 上 述 组 件 交 互 ，HOD 在 给 定 的 集群 上 提供 和 维护 Hadoop Map/Reduce 实 例 或 HDFS 实 例 。 集 群 中 的 节点 可 看 作 是 由 以 下 两 组 节点 构成 的 。 


-提交 节点 (Submit Nodes) : 用 户 通过 HOD 客 户 端 在 这 些 节点 上 申请 集群 ， 之 后 通过 Hadoop 客 户 端 提交 Hadoop 作 业 。 


:计算 节点 (Compute Nodes) : 利用 资源 管理 器 ，HOD 组 件 在 这 些 节 点 上 运行 以 提供 Hadoop 守 护 进 程 ， 之 后 ，Hadoop 作 业 在 这 些 节 点 上 运行 。 


虚拟 集群 申请 及 作业 调度 运行 的 主要 步骤 如 下 : 


步骤 1 用 户 在 提交 节点 上 用 HOD 客 户 端 分 配 所 需 节点 数目 的 集群 ， 并 提供 Hadoop 守 护 进 程 。 


步骤 2”HOD 客 户 端 利用 资源 管理 器 接口 (在 Torque 中 是 qsub) 提交 一 个 被 称 为 RingMaster 的 HOD 进 程 作为 一 个 资源 管理 器 作业 ， 申 请 理想 数目 的 节点 。 这 个 作业 被 提交 到 资源 管理 器 的 中 央 服 务 器 
上 (在 Torque 中 叫 pbs server) 。 


步骤 3 ”在 计算 节点 上 ， 资 源 管理 器 的 从 (slave) 守 护 程序 (Torque 中 的 pbs moms) 接 受 并 处 理 中 央 服 务 器 (Torque 中 的 pbs serven 分 配 的 作业 。RingMaster 进 程 在 其 中 一 个 计算 节点 (Torque 中 的 


mother superior) 上 开始 运行 。 

步骤 4 RingMaster 通 过 资源 管理 器 的 另外 一 个 接口 (在 Torque 中 是 pbsdsh) 在 所 有 分 配 到 的 计算 节点 上 运行 第 二 个 HOD 组 件 HodRing， 即 分 布 式 任务 。 

步骤 5 ”HodRing 初 始 化 之 后 会 与 RingMaster 通 信 获 取 Hadoop 指 令 ， 并 遵照 执行 。 一 旦 Hadoop 的 命令 开始 启动 ， 它 们 会 向 RingMaster 登 记 ， 提 供 关于 守护 进程 的 信息 。 

步骤 6 Hadoop 实 例 所 需 的 配置 文件 全 部 由 HOD 自 己 生 成 ， 有 一 些 是 来 自用 户 在 配置 文件 中 设置 的 选项 。 

步骤 7 HOD 客 户 端 保 持 和 RingMaster 的 通信 ， 找 出 JobTracker 和 HDFS 守 护 进 程 的 位 置 。 

从 资源 管理 的 角度 来 看 HOD 更 多 的 是 一 种 资源 管理 系统 ，HOD 使 用 Torque 资 源 管理 器 来 分 配 节 点 和 提交 作业 。Torque 是 一 个 开源 的 资源 管理 器 ， 来 自 于 Cluster Resources， 是 一 个 社区 基于 PBS 项 目 
努力 的 结晶 ， 它 能 提供 对 批 处 理 作业 和 分 散 的 计算 节点 (Compute Nodes) 的 控制 。 


9.6.2 ” ”LATE 调度 器 


Hadoop 内 置 的 调度 器 是 在 假设 集群 在 同 构 环境 下 的 调度 算法 ， 但 是 实际 集群 中 的 每 个 节点 的 性 能 都 不 相同 ， 针 对 这 个 问题 ，Matei Zaharia、Andy Konwin-ski 等 提出 了 一 种 Longest Approximate 
Time to End 的 调度 算法 ， 称 为 LATE 调 度 算法 。 


在 异 构 的 集群 环境 中 ， 一 个 用 户 作 业 被 划分 为 多 个 任务 分 友 到 不 同 的 节点 上 进行 并 行 处 理 ， 往 往 由 于 集群 中 每 个 节点 自身 的 配置 及 性 能 不 对 等 ， 导 致 总 有 一 些 任务 很 难 完成 或 者 卡 死 从 而 最 终 导 致 整个 
作业 失败 ， 在 LATE 调 度 算法 中 会 把 这 些 任务 看 成 是 落后 的 任务 。 落 后 任务 的 完成 是 整个 作业 成 功 的 关键 ， 因 此 必须 尽量 缩短 落后 任务 的 完成 时 间 ， 在 使 用 LATE 算 法 时 Hadoop 集 群 系统 会 启动 一 个 备份 任 
务 ， 即 重启 那些 进展 缓慢 的 任务 。 由 于 在 异 构 集群 上 相同 的 节点 在 执行 效率 上 都 会 有 很 大 的 差别 ， 因 此 LATE 算 法 会 产生 大 量 的 备份 任务 ， 但 这 样 做 能 够 缩短 系统 的 响应 时 间 和 提高 系统 的 吞吐 率 。 


LATE 算 法 启动 备份 任务 的 主要 原则 首先 是 根据 任务 的 进展 情况 ， 估 计 完 成 任务 还 需要 的 时 间 ， 然 后 优先 备份 那些 估计 能 最 早 完成 的 任务 ， 人 在 LATE 算 法 中 有 以 下 三 个 重要 定义 。 


定义 1 最 大 同时 执行 备份 数 一 一 SpeculationCap 

Hadoop MapReduce 系 统 中 最 大 同时 执行 的 备份 任务 数目 (推荐 值 为 总 横 位 slot 数 目的 10%)。 
定义 2 ”任务 的 完成 率 一 一 SlowTaskThreshold 

任务 的 完成 率 与 SiowTaskThreshold 进 行 比较 来 判断 节点 上 的 任务 是 否 需要 启动 备份 任务 。 
定义 3 ” 慢 节 点 阅 值 一 一 SlowNodeThreshold 


当前 任务 进度 低 于 同类 任务 的 平均 进度 的 SlowTaskThreshnld 值 时 ， 开 始 为 改 任 务 后 备份 任务 ， 备 份 任务 将 由 高 效率 节点 进行 处 理 。 


在 LATE 算 法 中 最 核心 的 部 分 就 是 需要 对 任务 完成 的 时 间 进行 估算 ， 假 设 Td 是 任务 已 执行 的 时 间 ; ProgesssScore 是 任务 得 分 值 ; ProgesssSrate 是 任务 的 完成 率 ; Tx 是 完成 任务 还 需要 的 时 间 ， 则 任务 
估计 完成 时 间 见 式 (9-5) 和 式 (9-6) : 


ProgesssScore a 
ProgesssSrate = — T ( 9-3 ) 


下 | ~ ProgesssScore 
4 ”一 
ProgesssSrate 


以 下 是 LATE 算 法 的 调度 策略 的 主要 步骤 。 


步骤 1 计算 节点 空 闪 资源 数 。 


步骤 2 计算 系统 中 的 总 备份 任务 数 ， 当 节点 有 空 闪 资源， 并 且 任 务 备份 数 小 于 最 大 同时 执行 备份 数 
略 这 个 请 求 ， 否 则 继续 处 理 。 


SpeculationCap 时 ， 如 果 该 节点 是 高 效率 节点 ， 即 节点 得 分 高 于 SlowNodeThreshold， 则 忽 


步骤 3 ”对 当前 运行 的 任务 按照 估计 的 剩余 完成 时 间 进 行 排序 。 
步骤 4 选择 剩余 完成 时 间 最 多 且 节 点 得 分 低 于 slowTaskThreshold 的 任务 为 启动 备份 任务 。 


LATE 算 法 对 于 异 构 集群 有 着 非常 好 的 鲁莽 性 ， 由 于 其 备份 的 是 最 慢 的 任务 ， 并 且 只 有 一 小 部 分 任务 会 被 重启 ， 因 此 算法 会 考虑 到 备份 任务 对 整个 工作 时 间 的 影响 ， 而 Hadoop 默 认 的 调度 算法 会 造成 大 
量 的 备份 任务 ， 同 时 在 备份 任务 时 考虑 到 了 节点 的 异 构 情况 。 


9.7 ”小结 


本 章 主要 对 Hadoop 的 作业 调度 系统 进行 了 讲述 ， 首 先 从 整体 角度 对 Hadoop 的 作业 调度 系统 进行 了 系统 性 的 介绍 ， 包 括 基本 相关 概念 、 作 业 调 度 流程 、 资 源 组 织 与 管理 、 队 列 控制 与 权限 管理 ， 以 及 插 
件 式 调度 框架 。 然 后 重点 分 析 了 目前 Hadoop 内 置 的 三 种 调度 器 : FIFO 调 度 器 ， 公 平 调度 器 (FairScheduler) ， 容 量 调度 器 (CapacityScheduler) ， 分 别 对 其 主要 功能 ,实现 染 构 以 及 具体 的 调度 策略 进 
行 了 深入 分 析 ， 同 时 还 对 这 三 种 经 典 调度 器 的 异同 进行 了 对 比分 析 ， 在 此 基础 上 还 分 析 了 各 自 的 优 缺 点 。 


FIFO 调 度 器 虽然 简单 ， 但 是 麻 省 哩 小， 五 脏 俱 全 ， 建 议 初学 者 可 以 先 从 学 习 FIFO 调 度 器 入 手 ，FairScheduler 和 CapacityScheduler 本 质 上 是 为 了 克服 FIFO 调 度 的 缺点 才 产 生 的 一 种 多 用 户 、 多 队列 调 
度 器 ， 而 HOD 是 从 虚拟 集群 划分 的 角度 处 理 Hadoop 作 业 调 度 问 题 的 。 目 前 ，Hadoop 内 置 的 三 种 调度 器 及 HOD 调 度 器 都 是 假设 集群 处 于 同 构 环境 下 的 ， 而 LATE 调 度 则 是 针对 实际 环境 下 的 异 构 集群 设计 出 
的 一 种 改进 的 调度 算法 ， 也 是 一 种 值得 关注 与 学 习 的 调度 算法 。 
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第 10 草 ”Hadoop 集 群 搭建 


本 章 讲述 如 何 搭建 一 个 实际 生产 环境 下 的 商业 Hadoop 集 群 ， 在 实际 生产 环境 下 首先 我 们 要 考虑 版 本 的 稳定 性 ， 以 及 对 机 器 的 硬件 和 软件 要 求 ， 在 搭建 部 署 完 成 之 后 还 需要 对 集群 进行 基准 测试 来 验证 
集群 的 性 能 ， 下 面 进行 详细 的 介绍 。 


10.1 Hadoop 版 本 的 选择 


目前 在 Hadoop 的 发 行 版 本 中 有 较 多 的 版 本 都 是 以 Apache Hadoop 为 基础 版 本 进行 的 升级 改造 ， 关 于 各 种 发 行 版 本 的 介绍 可 以 参考 第 1 章 的 Hadoop 发 行 版 内 容 。 在 进行 Hadoop 版 本 选择 前 有 必要 了 
解 各 种 版 本 的 特点 ， 对 比 是 选择 的 基础 。 主 要 依据 以 下 几 个 方面 。 


稳定 性 是 生产 集群 首要 考虑 的 问题 ， 只 有 稳定 的 版 本 才 可 以 提供 持续 可 靠 的 服务 ， 版 本 稳定 也 是 可 以 用 于 生产 环境 的 必要 条 件 。 例 如 ， 目 前 常用 的 Hadoop-1.0.X 是 Hadoop 的 稳定 版 本 ， 而 Hadoop- 
0.23 和 Hadoop-2.0.X-alpha 虽 然 支持 最 新 的 功能 和 特性 ， 例 如 YARN 框 架 等 ， 但 并 不 是 稳定 的 版 本 ， 不 建议 用 于 生产 集群 环境 。 


2.NameNode HA 


Hadoop 是 单 Master 架 构 设 计 ， 在 实际 生产 环境 中 存在 单 点 故障 (SPOF) 问题 。 对 于 只 有 一 个 NameNode 的 集群 ， 如 果 NameNode 机 器 出 现 故障 ， 那 么 整个 集群 将 无 法 使 用 ， 直 到 NameNode 重 新 
启动 ， 因 此 在 选择 Hadoop 版 本 时 必须 考虑 HDFS 的 高 可 用 性 (HA) 功能 。 开 源 社区 的 Hadoop 版 本 可 以 通过 SecondNameNode 提 供 一 个 解决 方案 ， 也 可 以 选择 支持 这 个 功能 的 商业 发 行 版 ， 例 如 
CDH4，Facebook-hadoop 等 。 


3.Hadoop 安 全 性 


安全 性 一 直 是 Hadoop 的 短 板 ， 在 Hadoop-1.0.0 版 本 之 前 Hadoop 并 不 支持 安全 认证 ， 也 就 是 一 般 的 用 户 可 以 很 容易 伪装 成 Hadoop 的 用 户 访 问 集群 并 恶意 提交 作业 ， 甚 至 修改 NameNode、 
JobTracker 上 的 重要 数据 ， 这 对 于 生产 集群 来 讲 是 非常 大 的 安全 隐患 。 在 Hadoop-1.0.0 版 本 开始 引入 了 Kerberos 认 证 机 制 后 ， 包 括 商 业 发 行 版 CDH4 也 支持 Kerberos 安 全 认证 机 制 ， 在 选择 版 本 时 是 否 
持 安全 认证 也 是 非常 重要 的 。 


4.Append 支 持 


Append 功 能 主要 是 针对 HDFS 的 文件 追加 问题 ， 在 Hadoop 的 初期 版 本 中 是 针对 文件 的 一 次 写 入 多 次 读 取 这 样 的 场景 设计 的 ， 当 一 个 文件 被 关闭 时 ， 这 个 文件 就 不 能 再 被 修改 了 。 如 果 要 修改 ， 就 只 能 
重读 此 文件 并 将 数据 写 入 一 个 新 的 文件 ， 这 对 于 有 多 次 Append 需 求 的 应 用 来 说 是 非常 低 效 的 ， 特 别 是 在 HBase 的 应 用 场景 中 Append 功 能 是 必需 的 ， 同 时 为 了 保证 写 入 数据 的 正确 性 ， 要 求 HDFS 还 同时 支 
持 sync 功 能 。 如 果 用 户 对 Append 功 能 有 要 求 ， 在 进行 版 本 选择 时 可 以 对 待 选 版 本 进行 append/sync 功 能 测试 ， 以 确保 可 以 满足 业务 需求 。 


10.2 集群 基础 硬件 需求 


Hadoop 可 在 通用 硬件 上 运行 ， 也 就 是 说 不 必 购 买 昂贵 的 生产 型 机 器 也 可 以 组 建 一 个 高 可 靠 性 的 生产 计算 平台 。Google 公 司 利用 通用 的 商用 硬件 构建 计算 集群 ， 利 用 廉价 的 PC 服务 器 即 可 承载 其 主要 业 
务 。 这 里 的 廉价 并 不 意味 着 低档 ， 低 档 的 机 器 往往 在 组 建 集群 时 出 错 的 概率 更 大 ， 从 而 导致 更 高 的 维护 费用 ， 但 也 不 推荐 使 用 大 型 数据 库 级 别 的 机 器 来 组 建 集 群 ， 因 为 Hadoop 本 身 的 设计 可 以 保证 在 商用 
的 硬件 条 件 下 正常 运行 。 但 是 为 了 保证 生成 环境 下 集群 的 稳定 性 和 高 效 性 ， 在 搭建 集群 前 ， 首 先 需要 了 解 适 合 目标 集 群 的 硬件 规格 ， 包 括 主 、 从 节点 的 硬件 需求 与 选择 ， 包 括 内 存 、CPU、 和 磁盘、 网卡、 网 
络 拓扑 等 。 下 面 将 对 这 些 硬件 的 规格 进行 介绍 。 


10.2.1 ”内存 


在 Hadoop 集 群 中 ，Master 节 点 (NameNode/JobTracker) 和 Slave 节 点 (DataNode/TaskTracker) 对 内 存 的 需求 是 不 一 样 的 ， 一 般 而 言 ，Master 节 点 对 内 存 有 较 大 的 需求 ， 例 如 NameNode 需 要 
将 所 有 文件 的 元 信息 存储 在 内 存 中 ， 以 获取 较 高 的 响应 速度 。NameNode 的 内 存 大 小 需要 根据 集群 规模 及 存储 的 文件 数 来 确定 。 


在 通常 情况 下 ， 为 JVM (64bit) 开启 1GB 堆 空间 大 约 可 以 维护 200 万 个 文件 的 元 数据 信息 ， 随 着 HDFS 存 储 文件 规模 的 增长 ，NameNode 必 须 增加 内 存 以 服务 更 多 的 文件 。 例 如 Hadoop 和 集群 需 要 存储 
管理 1000 万 个 文件 ， 那 么 在 NameNode 内 存 中 至 少 要 存储 这 些 数 据 的 元 数据 信息 ， 因 此 JVM 虚 拟 机 的 堆 空 间 应 该 设 为 5GB 左 右 来 满足 存储 元 信息 的 需求 ， 同 时 还 需要 提供 额外 的 缓冲 空间 ， 算 上 操作 系统 
的 内 存 需求 ，NameNode 服 务 器 至 少 应 该 保证 有 10GB 的 物理 内 存 。 


对 于 SecondaryNameNode 而 言 ， 由 于 是 NameNode 的 镜像 节点 ， 因 此 其 内 存 需求 和 NameNode 是 一 样 的 ， 对 于 较 大 规模 的 Hadoop 集 群 而 言 ，NameNode 和 SecondaryNameNode 是 需要 部 署 在 
独立 的 服务 器 上 的 ， 这 两 台 服 务 器 需要 保证 具备 相同 的 内 存 配置 。 


对 于 Slave 节 点 ， 由 于 其 包括 DataNode 和 TaskTacker 节 点 类 型 ， 在 实际 的 集群 环境 下 这 两 种 节点 是 部 署 在 相同 的 物理 机 器 上 的 ， 在 集群 中 是 真正 负责 存储 和 计算 的 节点 ， 因 此 其 内 存 需求 往往 和 用 户 的 
作业 类 型 相关 。 对 于 内 存 密集 型 作业 ， 特 别 是 需要 加 载 词典 的 作业 往往 需要 消耗 Slave 节 点 较 多 的 内 存 ， 而 一 般 的 数据 密集 型 作业 则 对 Slave 节 点 没有 太 多 的 内 存 需求 ， 但 是 建议 在 内 存 预 算 充 足 的 情况 下 为 
slave 节 点 配备 更 大 的 内 存 ， 在 这 样 的 情况 下 可 以 通过 修改 Hadoop 的 参数 提高 集群 系统 的 性 能 ， 例 如 提高 Shuffle 阶 段 的 内 存 配置 相关 参数 以 降低 Hadoop MapReduce 的 MO 消耗 ， 从 而 提高 计算 框架 的 效 


下 oo 


10.2.2 CPU 


CPU 是 计算 机 最 核心 的 组 件 ， 在 集群 中 任何 运行 最 终 都 是 通过 CPU 完成 计算 的 。 在 Hadoop 集 群 中 ，Master 节 点 和 3lave 节 点 负责 的 功能 不 同 ， 因 此 它们 对 CPU 的 需求 也 是 不 同 的 ，NameNode 节 点 需 
要 管理 并 维护 整个 集群 文件 的 元 数据 并 处 理 文 件 访问 的 服务 请 求 ，JobTracker 节 点 需要 管理 维护 用 户 提 交 的 所 有 作业 ， 包 括 作 业 调 度 的 处 理 等 ， 同 时 NameNode 和 JobTracker 在 Hadoop 集 群 架构 中 是 逻辑 
单 节点 的 部 署 方式 ， 因 此 它们 对 CPU 的 需求 和 集群 规模 相关 ， 集 群 规模 越 大 ， 作 业 请 求 越 多 ， 相 应 的 对 CPU 的 要 求 也 就 越 高 。 


slave 节 点 的 DataNode 和 TaskTracker 分 别 负责 数 据 人 存储 与 任务 计算 ， 在 集群 规模 相同 的 情况 下 ， 多 核心 CPU 的 集群 计算 槽 位 容量 比 单 核心 CPU 的 集群 计算 覃 位 容量 大 。 一 般 在 单 节点 单 核 心 CPU 配 置 
下 ， 一 个 物理 节点 可 以 配置 一 个 计算 槽 位 ， 最 多 不 超过 两 个 计算 槽 位 ; 而 在 单 节点 多 核心 CPU 的 配置 下 ， 一 个 物理 节点 可 以 配置 多 个 计算 棋 位 ，Slave 单 节点 配置 16 核 心 CPU， 那 么 单 节点 可 以 配置 16 个 计 
算 槽 位 〈Map 槽 位 ，Redcue 模 位 以 及 预 留 槽 位 总 和 ) ， 人 在 CPU 负载 不 高 的 情况 下 最 多 可 以 配置 32 个 计算 覃 位 。 


因此 ，Master 节 点 可 以 依据 集群 规模 选择 相应 的 CPU 配置 ; Slave 节 点 则 建议 选择 多 核心 CPU 配置 。 在 多 核心 CPU 配置 的 情况 下 ， 可 以 在 不 增加 集群 规模 的 情况 下 ， 仅 通过 优化 配置 参数 来 增加 集群 的 
计算 覃 位 容量 ， 从 而 增加 集群 的 计算 能 力 ， 提 高 底层 CPU 的 运算 效率 。 


10.2.3 ”磁盘 


Hadoop 作 为 一 个 分 布 式 的 并 行 计算 框 架 ， 可 以 充分 利用 多 核心 、 多 磁盘 的 服务 器 资源 ， 每 个 节点 服务 器 可 以 同时 运行 多 个 MapReduce 任 务 ， 集 群 节点 可 以 配置 多 磁盘 并 行使 用 ， 从 而 提高 集群 的 MO 
效率 。 单 个 节点 可 配备 N 块 磁盘 ， 挂 载 在 /home 目 录 下 的 相应 目录 ， 配 置 dfs.data.dir 和 mapred.data.dir 参 数 之 后 ，Hadoop 就 可 以 并 行使 用 磁盘 。 


对 于 磁盘 需求 ， 另 一 个 需要 关注 的 就 是 是 否 需 要 做 RAID， 一 般 的 服务 器 都 会 配备 RAID 服 务 。 从 本 质 上 来 讲 ，RAID 是 通过 见 余 存储 来 提高 数据 可 靠 性 的 ， 而 Hadoop 中 HDFS 也 是 通过 块 副本 的 元 余 存 储 
机 制 对 每 个 数据 块 进行 元 余 备 份 。 因 此 部 署 Hadoop 的 Slave 节 点 的 服务 器 磁盘 不 需要 配备 RAID， 同 时 实际 的 使 用 经 验 也 证 明了 配备 RAID 磁 盘 的 Hadoop 集 群 在 MO 整体 性 能 上 反而 不 如 不 做 磁盘 RAID 的 集 
群 。 来 自 Yahool 的 测试 数据 表明 ， 不 做 RAID 在 Gridmix 测 试 中 的 性 能 表现 要 比 RAID 0 高 10%， 在 HDFS 写 吞吐 量 测试 中 要 高 于 30%。 


此 外 ， 单 块 磁盘 损坏 会 造成 RAID 0 节点 所 有 磁盘 失效 ， 从 而 造成 整个 节点 不 可 用 。 而 不 做 RAID 时 ，Hadoop 可 以 跳 过 损坏 的 磁盘 ， 其 他 磁盘 仍 可 正常 使 用 。 一 般 情 况 下 ，Hadoop 作 业 通 常 属于 I/O 密 
集 型 ， 磁 盘 的 MO 负载 较 高 ， 磁 盘 损 坏 时 常 发 生 ， 是 Hadoop 集 群 硬件 故障 的 最 主要 来 源 。 如 果 条 件 允 许 ， 可 以 考虑 使 用 可 靠 性 较 高 的 SCSI 或 SAS 磁 盘 ， 以 降低 由 磁盘 损坏 所 融 来 的 运 维 成 本 。 


通过 上 述 分 析 ， 建 议 对 Hadoop 集 群 中 的 Slave 节 点 不 做 RAID， 而 Master 节 点 的 NameNode 和 JobTracker 都 是 单 点 部 署 ， 对 可 靠 性 和 稳定 性 要 求 更 高 ， 因 此 建议 给 Master 节 点 的 磁盘 配备 RAID。 


10.2.4 网 卡 


Hadoop 作 为 一 个 分 布 式 计算 系统 ， 节 点 之 间 的 通信 和 数据 传输 是 非常 频繁 的 ， 节 点 之 间 通 信和 数据 传输 最 终 都 是 通过 网 卡 完成 的 ， 因 此 网 卡 的 性 能 对 整个 集群 的 性 能 至 关 重要 ， 特 别 是 对 |/O 性 能 的 影 
响 。 

对 于 1000MBbit/s 网 卡 而 言 ， 节 点 之 前 的 带宽 就 被 限制 在 了 1000MBbit/s 的 范围 之 内 (不 考虑 连接 线 的 传输 速率 ) ， 因 此 建议 配备 更 大 传输 速率 的 网 卡 ， 但 是 网 卡 速率 越 高 价格 也 就 越 贵 ， 同 时 还 需要 
考虑 集群 的 规模 和 数据 传输 的 速率 ， 并 在 综合 考虑 后 进行 选择 。 


10.2.5 ”网 络 拓扑 


一 个 典型 的 Hadoop 集 群 由 两 级 网 络 拓扑 组 成 ， 通 常 每 个 机 架 部 署 数 台 服务 器 ， 以 及 一 台 交 换 机 ， 网 络 拓 扑 结构 ， 如 图 10-1 所 示 。 


在 Hadoop 集 群 网 络 拓扑 结构 中 ， 同 一 机 架 上 部 署 了 数 台 服务 器 ( 见 图 10-1) ， 机 架 之 间 也 通过 机 架 交 换 机 连接 。 一 个 机 架 内 节点 之 间 的 带宽 要 远大 于 跨 机 架 节 点 之 间 的 带宽 。 例 如 ， 机 架 内 部 的 交换 
机 为 1GB 带 宽 ， 那么 跨 机 架 之 间 的 交换 机 带宽 可 以 小 于 机 架 内 的 1GB 交 换 机 。 


机 间 区 换 机 


图 10-1 Hadoop 两 级 网 络 拓扑 结构 


由 于 Hadoop 是 支持 机 架 感 知 的 ， 在 默认 情况 下 Hadoop 认 为 所 有 节点 都 运行 在 相同 的 机 架 上 (默认 配置 为 /default-rack) ， 如 果 集 群 中 所 有 节点 本 身 就 全 部 部 署 在 一 个 机 架 下 ， 那 么 就 不 需要 进行 机 
架 感知 配置 。 然 而 如 果 是 节点 跨 机 架 的 集群 ， 则 需要 配置 节点 到 机 架 的 映射 关系 ， 这 样 可 以 最 大 化 集群 的 性 能 。 在 节点 之 间 需 要 进行 数据 传输 时 ，Hadoop 就 可 以 依据 机 架 感 知 配置 优先 选择 相同 机 架 上 的 
节点 进行 数据 传输 ，HDFS 在 对 文件 进行 元 余 备 份 时 也 会 依据 机 架 感 知 配置 来 选择 合适 的 机 器 进行 副本 备份 。 


10.3 ”集群 基础 软件 需求 


10.3.1 操作 系统 


Hadoop 是 用 Java 语 言 实现 的 ， 原 则 上 可 以 运行 在 支持 JVM 的 机 器 上 ， 但 是 目前 没有 足够 的 实验 证 明 Hadoop 可 以 稳定 运行 在 非 UNIX/Linux 机 器 上 ， 因 此 不 建议 将 非 UNIX/Linux (Windows 等 ) 系统 
作为 生产 型 平台 。 目 前 Hadoop 已 在 由 数 干 个 节点 的 GNU/Linux 主 机 组 成 的 集群 系统 上 得 到 验证 ， 因 此 建议 将 GNU/Linux 系 统 作为 生产 型 运行 平台 。 


在 选择 Linux 操 作 系统 时 ， 还 需要 考虑 Linux 的 内 核 情况 。 由 于 HDFS 文 件 操作 的 顺序 读 写 操作 要 远 多 于 随机 读 写 ， 为 了 提升 顺序 读 写 效率 ，DataNode 上 操作 系统 的 底层 文件 系统 可 以 考虑 使 用 支持 大 块 
文件 系统 的 内 核 而 在 对 HDFS 数 据 挂 载 磁盘 的 文件 系统 进行 分 区 时 可 将 块 大 小 设 为 64KB， 以 更 高 效 地 支持 HDFS 大 块 存储 的 特性 。 


而 NameNode 节 点 只 存储 文件 系统 的 元 信息 ， 因 此 不 需要 大 块 存储 ， 同 样 JobTracker 也 不 需要 大 块 文件 系统 的 内 核 支持 ， 因 此 NameNode 和 JobTracker 上 的 Linux 操 作 系统 在 进行 内 核 选 择 时 不 需要 
考虑 是 否 支持 大 块 文件 系统 。 


10.3.2 JVM 和 和 SSH 


Hadoop 是 采用 Java 语 言 实现 的 开源 系统 ， 因 此 对 于 J 人 VM 有 一 定 的 要 求 ， 其 官方 网 站 指出 运行 Hadoop 的 JVM 版 本 至 少 为 1.6.X， 并 推荐 使 用 SUN 的 官方 JVM 版 本 ， 为 了 突破 32 位 JVM 对 最 大 3GB 堆 空间 
的 限制 ， 在 实际 生产 平台 下 推荐 使 用 64 位 版 本 的 JVM。 


对 于 最 新 版 本 的 JVM 人 往往 会 有 新 的 特性 引入 ， 但 是 同时 还 需要 考虑 新 版 本 不 稳定 带 来 的 潜在 风险 ， 在 具体 选择 JVM 版 本 时 都 需要 考虑 在 内 。 


Hadoop 是 基于 Master-Slave 主 从 架构 的 计算 平台 ，Master 节 点 对 整个 集群 的 启动 、 停 止 都 是 依赖 SSH 来 操作 Slave 节 点 实现 的 ， 因 此 整个 集群 需要 SSH 软 件 的 支持 。 具 体 设置 内 容 会 在 10.5.3 节 讲解 。 


10.4 ”虚拟 化 需求 


虚拟 化 是 指 计算 机 元 件 在 虚拟 的 基础 上 而 不 是 真实 的 基础 上 运行 。 虚 拟 化 技术 可 以 扩大 硬件 的 容量 ， 简 化 软件 的 重新 配置 过 程 。CPU 的 虚拟 化 技术 可 以 实现 单 CPU 模 拟 多 CPU 并 行 ， 允 许 一 个 平台 同时 
运行 多 个 操作 系统 ， 并 且 应 用 程序 都 可 以 在 相互 独立 的 空间 内 运行 而 互 不 影响 ， 从 而 显著 提高 计算 机 的 工作 效率 。 


在 本 质 上 ， 虚 拟 化 技术 是 通过 新 增 的 虚拟 中 间 层 截获 上 层 软 件 对 底层 接口 的 调用 ， 并 对 该 调用 重新 作出 解释 和 处 理 ， 以 实现 异 构 环境 中 资源 的 可 共享 、 可 管理 和 可 协同 ， 并 支持 应 用 大 规模 部 署 、 迁 移 
和 运行 维护 。 虚 拟 化 是 云 计 算 中 的 关键 技术 ， 虚 拟 化 可 以 实现 云 中 资源 的 更 高 层次 的 抽象 ， 实 现 资源 的 统一 管理 、 调 度 和 分 配 。 可 以 在 云 中 服务 不 中 断 的 情况 下 实现 服务 的 实时 迁移 ， 目 前 的 虚拟 化 解决 方 
案 主要 有 两 种 : 一 种 是 准 虚 拟 化 ; 另 一 种 是 完全 虚拟 化 。 


最 流行 的 虚拟 化 方法 是 使 用 名 为 Hypervisor 的 软件 ， 在 虚拟 服务 器 和 底层 硬件 之 间 建 立 一 个 抽象 屋 。VMware 和 微软 的 Virtual PC 是 代表 该 方法 的 两 个 商用 产品 ， 而 基于 核心 的 虚拟 机 (KVM) 是 面向 
Linux 系 统 的 开源 产品 。 完 全 虚拟 化 是 处 理 器 密集 型 技术 ， 因 为 它 要 求 Hypervisor 管 理 各 个 虚拟 服务 器 ， 并 让 它们 彼此 独立 。 一 种 减轻 这 种 负担 的 方法 是 改动 客户 操作 系统 ， 让 它 以 为 自己 运行 在 虚拟 环境 
下 ， 能 够 与 Hypervisor 协 同 工 作 ， 这 种 方法 就 叫 准 虚 拟 化 (para-virtualization) 。 


目前 虚拟 化 技术 本 身 已 经 比较 成 熟 了 ， 如 Xen 及 VMware 面向 企业 用 户 推出 的 VMware ESX Server 等 。Xen 是 开源 准 虚 拟 化 技术 的 一 个 例子 。 操 作 系统 作为 虚拟 服务 器 在 Xen hypervisor 上 运行 之 前 ， 
它 必须 在 核心 层面 进行 某 些 改变 。 因 此 ，Xen 适 用 于 BSD、Linux、Solaris 及 其 他 开源 操作 系统 ， 但 不 适合 对 诸如 Windows 这 样 专 有 的 操作 系统 进行 虚拟 化 处 理 ， 因 为 它们 无 法 改动 。 准 虚拟 化 技术 的 优点 
是 性 能 高 。 经 过 准 虚拟 化 处 理 的 服务 器 可 与 Hypervisor 协 同 工 作 ， 其 响应 能 力 几 乎 不 亚 于 未 经 过 虚拟 化 处 理 的 服务 器 。 准 虚拟 化 与 完全 虚拟 化 相 比 优点 明显 ， 以 至 于 微软 和 VMware 都 在 开发 这 项 技术 ， 以 
完善 各 自 的 产品 。 图 10-2 为 使 用 虚拟 化 技术 承载 Hadoop 集 群 的 架构 。 


…Hadoop Virtual Machine Cluster… 


便 件 资源 池 《“ 包 括 CPU、 内 存 、 网 络 等 ) 


图 10-2 ”基于 虚拟 化 承载 Hadoop 集 群 的 基本 架构 图 


虚拟 化 虽然 可 以 最 大 化 地 利用 硬件 资源 ， 然 而 基于 虚拟 化 构建 的 Hadoop 集 群 的 稳定 性 和 可 靠 性 依赖 于 虚拟 化 技术 以 及 虚拟 化 管理 系统 ， 因 此 在 实际 生产 平台 中 是 否 使 用 虚拟 化 需要 结合 需求 以 及 实际 
情况 综合 考虑 。 


10.5 事前 准备 


10.5.1 创建 安装 用 户 


在 Hadoop 系 统 中 ，Linux 的 用 户 就 是 Hadoop 中 的 用 户 ， 安 装 并 启动 Hadoop 的 用 户 会 作为 Hadoop 的 超级 用 户 。Hadoop 的 超级 用 户 在 Hadoop 系 统 中 相当 于 Linux 的 root 用 户 ， 具 有 操作 集群 的 任何 
权限 ， 但 是 不 必 使 用 Linux 的 root 用 户 来 安装 Hadoop， 从 系统 安全 的 角度 来 讲 也 应 该 避免 使 用 root 用 户 安 装 Hadoop。 


在 构建 实际 生产 集群 时 也 不 会 使 用 普通 的 Linux 用 户 来 安装 Hadoop， 而 是 创建 独立 的 Linux 用 户 来 安装 ， 这 样 可 以 避免 普通 用 户 拥有 Hadoop 超 级 权限 的 问题 ， 同 时 为 了 隔离 系统 环境 并 保证 HDFS 的 数 
据 安 全 ， 推 荐 将 Hadoop 的 HDFS 和 MapReduce 分 别 使 用 两 个 用 户 来 安装 部 署 。 例 如 ， 可 以 为 搭建 HDFS 创 建 一 个 名 称 为 hdfs 的 用 户 ， 为 搭建 MapReduce 创 建 一 个 名 称 为 mapreduce 的 用 户 。HDFS 由 
NameNode、SecondaryNameNode、DataNode 组 成 ， 因 此 需要 为 集群 中 这 类 节点 的 所 有 机 器 创建 hdfs 用 户 ; MapReduce 由 JobTracker 和 TaskTracker 节 点 组 成 ， 因 此 需要 为 集群 中 这 两 类 节点 的 所 有 
机 器 创建 mapreduce 用 户 ; 一 般 Hadoop 在 部 署 时 ，Slave 机 器 会 同时 部 署 TaskTracker 和 DataNode 节 点 ， 因 此 需要 为 集群 中 的 Slave 节 点 同时 创建 hdfs 和 mapreduce 用 户 。 创 建 用 户 直 接 使 用 Linux 操 作 命 
令 useradd 就 可 以 完成 。 


10.5.2 ”安装 java 


根据 JVM 版 本 的 实际 需求 下 载 相应 的 版 本 ， 进 行 安装 。JVM 的 安装 直接 参考 官方 文档 即 可 ， 非 常 简单 。 安 装 后 配置 JAVA_HOME 环 境 变量 和 CLASS_PATH 环 境 变 量 ， 并 将 JVM 的 bin 目 录 添 加 到 PATH 环 
境 变量 ， 然 后 在 命令 行 执行 一 个 简单 的 Java 命 令 来 验证 安装 的 正确 性 ， 例 如 ， 使 用 输出 Java 版 本 命令 : 


Java -version 


验证 Java 安 装 的 正确 性 是 很 有 必要 的 ， 因 为 Hadoop 是 基于 Java 虚 拟 机 运行 的 。 


10.5.3 ”安装 SSH 并 设置 


Hadoop 系 统 中 Master 节 点 是 通过 SSH 协 议 来 管理 并 控制 Slave 节 点 的 ， 因 此 需要 主 节 点 Master 能 通过 SSH 免 密码 登录 到 从 节点 Slave 上 。 由 于 HDFS 和 MapReduce 是 使 用 独立 的 用 户 部 署 的 ， 因 此 需要 
分 别 生成 主 节点 用 户 hdfs 和 mapreduce 用 户 的 公 / 私 钥 对 ， 并 将 公 钥 追加 到 从 节点 hdfs 和 和 mapreduce 用 户 的 ~/.ssh/authorized_keys 文 件 中 。 下 面 分 别 介 绍 具 体 的 配置 方法 。 


对 于 HDFS， 主 要 步骤 如 下 : 
步骤 1 使 用 hdfs 用 户 登 录 HDFS 的 主 节 点 NameNode 机 器 。 


步骤 2 生成 用 户 hdfs 在 NameNode 上 的 公 / 私 钥 对 ， 操 作 如 下 : 


ssh-keygen -t dsa -P '' -f ~/.ssh/id dsa 
cat ~/.ssh/id dsa.pub >> ~/.ssh/authorized keys 


步骤 3 ”将 NameNode 公 钥 追 加 到 所 有 从 节点 hdfs 用 户 的 ~/.ssh/authorized_keys 文 件 中 。 
MapReduce 与 HDFS 类 似 ， 主 要 步骤 如 下 : 
步骤 1 使 用 mapreduce 用 户 登录 MapReduce 的 主 节点 JobTracker 机 器 。 


步骤 2 ”生成 用 户 mapreduce 在 JobTracker 上 的 公 / 私 钥 对 ， 操 作 如 下 : 


sh-keygen -t dsa -P '' -f ~/.ssh/id dsa 
cat ~/.ssh/id dsa.pub >> ~/.ssh/authorized keys 


步骤 3 ”将 JobTracker 公 钥 追 加 到 所 有 从 节点 mapreduce 用 户 的 ~/.ssh/authorized_keys 文 件 中 。 


名 提示 考虑 到 安全 性 需要 ， 安 装 HDFES 和 MapReduce 的 用 户 的 .ssh 目 录 只 能 为 用 户 所 有 ， 权 限 需要 设置 为 700， 相 应 的 授权 文件 authorizeq keys 需 要 设置 为 644。 


10.5.4 防火墙 端 口 设 置 


Hadoop 的 系统 守护 进程 会 使 用 两 类 端口 : 一 类 用 于 主 从 节点 进程 间 的 RPC 通 信 ; 另 一 类 用 于 HTTP 访 问 。 在 安装 Hadoop 之 前 需要 确保 所 有 节点 机 器 的 相应 端口 处 于 开放 状态 ， 相 关 地 址 /端口 参数 ， 如 
表 10-1 所 示 。 


表 10-1 Hadoop 地 址 /端口 参数 表 
省 口 控制 参数 意 义 默 认 值 
fs.default.name HDFS URI， 包 括 NameNode RPC 主机 名 和 闹 口 用 户 设 置 
dfs.datanode.address DataNode 的 数据 传输 地 址 和 交口 0.0.0.0:50010 
dfs.datanode.ipc.address DataNode 的 RPC 地 址 和 端口 0.0.0.0:50020 


mapred.job.tracker JobTracker 的 RPC 地 址 和 六 口 用 户 设 置 
mapred.task.tracker.report.address TaskTracker 的 RPC 地 址 / 羡 口 ， 用 于 子 JVM 通信 i200:10 


mapred.job.tarcker.http.address JobTracker 的 HTTP 服务 豆 地 址 和 病 口 0.0.0.0:50030 
mapred.task.tracker.http.address TaskTracker 的 HTTP 服务 需 地 址 和 交口 0.0.0.0:50060 
dfs.http.address NameNode 的 HTTP 服务 需 地 址 和 交口 0.0.0.0:50070 
dfs.datanode.http.address DataNode 的 HTTP 服务 带 地 址 和 冰 口 0.0.0.0:50075 
dfs.secondary.http.address SecondaryNameNode 的 HTTP 服务 需 地 址 和 关口 0.0.0.0:50090 


从 表 10-1 中 可 以 清晰 地 看 到 Hadoop 系 统 中 使 用 的 地 址 和 端口 号 ， 其 中 NameNode RPC 主 机 名 和 端口 fs.default.name 是 需要 用 户 设置 的 ， 如 果 不 设置 ， 那 么 默认 使 用 本 地 文件 系统 ; JobTracker 的 
RPC 地 址 和 端口 参数 mapred.job.tracker 也 是 需要 用 户 设置 的 ， 如 果 不 设置 ， 也 默认 为 本 地 模式 。 其 余 参 数 中 的 端口 和 地 址 可 以 使 用 默认 值 也 可 以 根据 需求 进行 自 定义 设置 ， 确 定 后 就 需要 将 所 有 用 到 的 端 
口 的 防火 墙 开 放 。 


另 一 种 最 方便 的 方式 就 是 直接 关闭 所 有 节点 的 防火 墙 ， 相 当 于 开放 所 有 的 地 址 端口 。 在 搭建 生产 集群 时 ， 为 了 集群 系统 的 安全 性 不 建议 关闭 防火 墙 。 


全 注意 在 表 10-1 中 ， 如 果 将 地 址 设置 为 0.0.0.0，Hadoop 将 绑 定 到 该 主机 的 所 有 地 址 ， 否 则 应 该 制定 一 
中 禁止 这 样 设置 。 


> 


单独 的 绑 定 地 址 。 如 果 将 端口 号 设 为 0，Hadoop 将 自由 选择 一 个 空闲 的 端口 号 ， 这 是 一 种 不 可 控 的 状态 ， 在 生产 集群 


10.6 ”安装 Hadoop 


安装 Hadoop 时 需要 分 别 使 用 不 同 的 用 户 安装 HDFS 和 MapReduce， 因 此 需要 为 用 户 hdfs 和 mapreduce 独 立 部 署 两 套 Hadoop 环 境 ， 在 安装 之 前 首先 需要 下 载 好 选择 的 Hadoop 版 本 ， 然 后 按照 下 面 介 
绍 的 步骤 进行 安装 。 


10.6.1 安装 HDFS 


在 安装 HDFS 之 前 需要 确保 上 述 准备 已 经 完成 ， 然 后 按照 下 面 的 步骤 进行 安装 HDFS : 
步骤 1 使 用 用 户 hdfs 登 录 HDFS 的 Master 机 器 NameNode 节 点 。 


又 2 将 下 载 的 Hadoop 版 本 复制 到 hdfs 的 用 户 目录 /home/hdfs 下 。 


后 


步骤 3 编辑 $4HADOOP_HOME/conf/hadoop-env.sh 文 件 ， 至 少 需 要 设置 JAVA_HOME 环 境 变量 。 


步骤 4 ”配置 NameNode 主 机 名 和 地 址 ,编辑 $HADOOP_HOME/conf/core-site.xm|l， 至 少 需 要 设置 属性 fs.default.name， 配 置 如 下 : 


<configuration> 
<property> 
<name>fs.default.name</name> 


<value>hdfs:// master-NameNode: 9000</value> 
</property> 
</configuration> 


上 述 配置 中 的 master-NameNode 是 NameNode 的 主机 名 或 者 主机 IP; 9000 是 NameNode RPC 端 口号 。 


步骤 5 配置 SecondaryNameNode 和 DataNode: 编辑 $bHADOOP _ HOME/conf/masters 文 件 ， 添 加 SecondaryNameNode 的 主机 名 或 者 IP 地 址 ; 编辑 $4HADOOP_HOME/conf/slaves 文 件 ， 添 加 
所 有 从 节点 DataNode 的 主机 名 列表 ， 一 个 主机 一 行 。 


步骤 6 复制 /home/hdfs 目 录 下 的 Hadoop 整 个 目录 到 SecondaryNameNode 和 所 有 的 DataNode 的 /home/hdfs 目 录 下 。 


至 此 HDFS 的 基本 安装 完成 ， 在 安装 时 需要 保证 Hadoop 目 录 在 所 有 节点 中 具有 相同 的 目录 位 置 。 


10.6.2 ”安装 MapReduce 


MapReduce 的 安装 步骤 和 HDFS 的 类 似 ， 有 具体 步骤 如 下 : 
步骤 1 使 用 用 户 mapreduce 登 录 MapReduce 的 Master JobTracker 节 点 。 
步骤 2 将 下 载 的 Hadoop 版 本 复制 天 mapreduce 用 户 目录 /home/mapreduce 下 。 


步骤 3 编辑 $4HADOOP_HOME/conf/hadoop-env.sh 文 件 ， 至 少 需 要 设置 JAVA_HOME 环 境 变量 。 


AN 


步骤 4 ”配置 JobTracker 主 机 名 和 地 址 ,编辑 $4HADOOP_HOME/conf/mapred-site.xml， 至 少 需 要 设置 属性 mapred.job.tracker， 例 如 ， 配 置 如 下 : 


和 


<configuration> 
<property> 
<name>mapred.job.tracker</name> 
<value>master-JobTracker: 9001</value> 
</property> 
</configuration> 


在 上 述 配 置 中 ，master-JobTracker 是 JobTracker 的 RPC 地 址 ; 9001 是 RPC 的 端口 号 。 
步骤 5 ”配置 TaskTracker,， 编辑 $4HADOOP_HOME/conf/slaves 文 件 ， 添 加 所 有 从 节点 TaskTracker 的 主机 名 列表 ， 一 个 主机 一 行 。 
步骤 6 复制 /home/mapreduce 目 录 下 的 Hadoop 整 个 目录 到 所 有 的 TaskTracker 机 器 的 /home/mapreduce 目 录 下 。 


至 此 MapReduce 基 本 安装 完成 ， 在 安装 时 同样 也 需要 保证 JobTracker 和 TaskTracker 的 Hadoop 目 录 位 置 一 致 。 


10.7 集群 配置 
通过 上 述 步骤 就 可 以 完成 Hadoop 的 基本 搭建 ， 在 默认 情况 下 Hadoop 中 的 HDFS 和 MapReuce 会 使 用 默认 参数 运行 ， 在 实际 的 生产 集群 平台 下 往往 还 需要 根据 需求 完成 进一步 的 集群 配置 。 
10.7.1 配置 管理 
Hadoop 作 为 一 个 分 布 式 系统 ， 每 个 节点 都 是 独立 维护 自己 的 配置 文件 的 ， 并 不 维护 全 局 的 配置 信息 ， 每 个 节点 配置 信息 的 同步 都 需要 管理 员 来 维护 。 通 常 Hadoop 集 群 中 每 个 节点 的 配置 文件 是 需要 保 


持 同步 的 ， 但 是 对 于 不 同 的 机 器 ，Hadoop 也 是 支持 单个 节点 的 自 定义 配置 文件 的 。 例 如 ， 在 集群 扩展 时 新 增 机 器 的 情况 下 ， 如 果 新 增 机 器 的 硬件 配置 和 集群 中 机 器 硬件 有 较 大 的 不 同 ， 就 可 以 单独 为 新 增 
节点 维护 一 个 配置 文件 。 


Hadoop 的 配置 管理 都 是 通过 配置 文件 生效 的 ， 配 置 文件 的 目录 位 于 $HADOOP_ HOME/conf 下 ， 包 括 的 配置 文件 及 意义 ， 如 表 10-2 所 示 。 


配置 文件 名 
hadoop-env.sh 
core-site.xml 
hdfs-site.xml 
mapred-site.xml 
masters 
slaves 
hadoop-metrics2.properties 
log4].propertles 
mapred-queue-acls.xml 
fair-scheduler.xml 


capacity-scheduler.xml 


在 Hadoop 中 ， 配 置 文件 和 配置 参数 众多 ， 而 这 些 配 置 文 件 的 维护 都 需要 管理 员 来 进行 ， 


此 建议 在 实际 生产 集群 下 使 用 一 些 配置 管理 工具 来 进行 集群 配置 管理 会 更 高 效 、 可 靠 ， 


10.7.2 “环境 变量 配置 


Hadoop 守 护 进程 相关 的 环境 变量 都 是 在 ysHADOOP_ HOME/conf/hadoop-env.sh 文 件 中 定义 并 配置 的 ，Hadoop 在 正式 启动 之 前 会 读 取 这 个 文件 并 使 用 其 中 的 环境 变量 


JAVA_HOME 

HADOOP HEAPSIZE 

HADOOP OPTS 

HADOOP LOG DIR 

HADOOP NAMENODE OPTS 

HADOOP DATANODE OPTS 

HADOOP SECONDARYNAMENODE OPTS 
HADOOP JOBTRACKER OPTS 

HADOOP TASKTRACKER OPTS 


在 表 10-3 中 ， 参 数 JAVA_HOME 用 于 配置 Hadoop 所 使 用 的 Java 虚 拟 机 路 径 ， 
HADOOP_HEAPSIZE 用 于 指定 Hadoop 守 护 进程 使 用 的 最 大 堆 内 存 空 间 ， 


HADOOP_HEAPSIZE 配 置 得 大 一 些 ; TaskTracker 在 启动 一 个 Map 或 Reduce 计 算 任务 时 ， 会 创建 一 个 子 JVM ， 


定 ， 默 认 的 设置 是 -Xmx 200M ， 也 就 是 为 子 进程 分 配 最 


的 HADOOP_ LOG _DIR 目 录 下 通过 查看 日 志 来 进行 问题 定位 ， HADOOP_NAMENODE_OPTS 环 境 变 


似 ， 例 如 可 以 配置 NameNode 的 Java 虚 拟 机 使 用 并 行 垃圾 收集 器 ， 配 置 如 下 : 


表 10.2 Hadoop 配 置 文件 
意义 摘 述 
Hadoop 局 动 需要 的 环境 变量 配置 文件 
Hadoop 核心 参数 配置 文件 

HDFS 主 配 置 文件 
MapReduce 主 配 置 文件 
SecondaryNameNode 的 主机 名 列表 配置 文件 
所 有 从 节 # 


metrics 统计 信息 配 


1 (DataNode/TaskTracker) 
置 文件 

HDFS 审计 日 志 log4j 配置 文件 

用 户 队 列 的 ACL 权限 控制 配置 文件 
公平 调度 器 主 配置 文件 


容量 调度 器 主 配置 文件 


用 的 集群 管理 工具 包括 Chef、Puppet、cfengine 及 bcfg2， 可 以 根据 需要 进行 选择 。 


表 10-3 Hadoop 环 境 变 量 


指定 Java 虚拟 机 路 径 
虚拟 机 最 大 内 存 使 用 ， 默 认 是 1000MB 


的 主机 名 列表 


在 小 规模 集群 的 情况 下 还 是 可 行 的 ， 但 是 对 于 大 规模 或 者 超大 规模 的 集群 平台 来 说 是 一 件 非常 不 易 的 工作 ， 


， 主 要 的 环境 变量 如 表 10-3 所 


Hadoop 进程 的 Java 参数 ， 经 第 用 于 设置 GC 策略 匀 


一 


Hadoop 系统 日 志 路 径 
NameNode 守护 进程 Java 参数 
DataNode 守护 进程 Java 参数 
SecondaryNamenode 守护 进程 Java 参数 
JobTracker 守护 进程 Java 
TaskTracker 守护 进程 Java 


参数 


量 用 于 指 


需要 被 正确 配置 ; HADOOP_OPTS 用 于 配置 Hadoop 的 守护 进程 的 Java 参 数 ， 例 如 调整 GC 策 略 、 开 启 JMX 等 ; 
通常 NameNode 和 SecondaryNameNode 会 占用 比较 多 的 内 存 ， 因 此 需要 将 NameNode 和 SecondaryNameNode 节 点 上 的 

该 VM 的 内 存 不 受 HADOOP_HEAPSIZE 控 制 ， 而 是 通过 mapred.child.java.opts 参 数 来 指 
高 200MB 的 堆 空 间 ，HADOOP_LOG_DIR 用 于 指定 Hadoop 系 统 日 志 的 路 径 ， 在 集群 安装 、 配 置 过 程 中 ， 如 果 有 进程 启动 失败 ， 都 可 以 到 相应 节点 
定 NameNode 守 护 进程 的 Java 虚 拟 机 参数 ， 其 他 守护 进程 的 Java 虚 拟 机 参数 意义 的 指 


定 与 此 类 


export HADOOP NAMENODE 
$ {HADOOP NAMENODF OPTS}" 


OPTS="-XX:+UseParallelGC \ 


10.7.3 ”核心 参数 配置 


Hadoop 的 核心 参数 通过 配置 文件 HADOOP_HOME/conf/core-site.xml 指 定 ， 默 认 的 核心 参数 配置 文件 为 SHADOOP_ HOME/src/core/core-default.xml， 


这 个 默认 配置 文件 是 不 推荐 修改 的 ， 如 果 


用 户 需要 自 定义 核心 参数 配置 可 以 在 core-site.xml 中 增加 ，Hadoop 在 启动 时 会 自动 加 载 core-site.xml 并 覆盖 默认 配置 core-default.xml 中 的 相同 参数 选项 。core-site.xm|l 常 用 的 参数 如 表 10-4 所 示 。 


表 10-4 core-site.xml 常 用 参数 表 


参数 属性 名 参数 意义 
定 义 NameNode 的 URI 和 


fs.default.name 


师 口 
fs.checkpoint.dir NameNode 元 数据 备份 路 径 


NameNode 的 备份 间隔 时 


fs.checkpoint.period 


间 ， 单 位 为 秒 
fs.checkpoint.size 备份 日 志 的 最 小 触发 大 小 
HDFS 垃圾 箱 设置 ， 在 此 
时 间 之 前 可 以 恢复 误 删 除 
Hadoop 临时 基础 目录 ， 很 
多 日 录 依 赖 它 
设置 日 志文 件 大 小 ， 超 过 
则 滚动 新 日 志 


hadoop.logfile.count 最 大 日 志 数 卓 


io.serializations 序列 化 的 编 解 码 需 


fs.trash.interval 


hadoop.tmp.dir 


hadoop.logfile.size 


io.compression.codecs Hadoop 所 使 用 的 编 解 但 硕 


10.compression.codec.lzo.class 
用 作 友 列 化 文件 处 理 时 读 
写 buffer 的 大 小 
topology.script.file.name 机 染 感 知 脚本 位 置 
机 染 感 知 脚本 省 理 的 主机 
topology.script.number.args 数 最 大 参数 ， 每 个 参数 是 一 
个 IP 地 址 


10.file.buffer.size 


默认 值 
file:/// 
${hadoop.tmp.dir!/dfs/namesecondary 
3600 
07108864， 即 64MB 


狱 认 0， 表 示 关 闭 垃圾 箱 


/tmp/hadoop-$ {user.name} 


1 000 000 000 


10 
org.apache.hadoop.io.serializer. WritableSerialization 


org.apache.hadoop.1o.compress.DefaultCodec， 
org.apache.hadoop.1o.compress.GzlpCodec， 
org.apache.hadoop.1o.compress.BZIp2Codec， 
org.apache.hadoop.i0.compress.SnappyCodec 


com.hadoop.compression.lzo.LzoCodec 
4096， 单 位 : 字 节 


无 ， 需 要 用 户 配置 


100 


在 表 10-4 中 ， 参 数 fs.default.name 是 需要 用 户 配 置 的 ， 在 集群 部 署 时 也 是 必须 配置 的 一 个 参数 选项 ， 参 数 hadoop.tmp.dir 默 认为 /tmp/hadoop-${user.name} 目 录 ，NameNode 元 数据 备份 等 重要 信 
息 默 认 也 会 存储 在 这 个 目录 下 ， 而 /tmp 目 录 是 系统 的 临时 目录 ， 每 次 重启 时 往往 会 被 清空 ， 因 此 生产 集群 配置 中 禁止 使 用 默认 目录 ， 应 该 自 定义 配置 一 个 可 以 持久 化 的 数据 目录 。 


10.7.44 HDFSs 人 参数 配置 


HDFS 的 参数 是 通过 配置 文件 $HADOOP_HOME/conf/hdfs-site.xml 指 定 ， 上 默认 的 HDFS 参 数 配 置 文 件 为 $HADOOP_HOME/src/hdfs/hdfs-default.xml， 不 推荐 修改 的 默认 配置 文件 hdfs- 
default.xml， 如 果 用 户 需 要 自 定义 HDFS 参 数 配 置 可 以 在 hdfs-site.xml 中 增加 ， 同 样 HDFS 在 启动 时 会 自动 加 载 hdfs-site.xml 并 覆盖 默认 配置 hdfs-default.xml 中 的 相同 参数 选项 。HDFS 属 性 参数 超过 50 


个 ,下面 根据 这 些 参数 的 功能 分 别 进行 介绍 。 


1. 端 口 控制 参数 配置 


HDFS 作 为 一 个 分 布 式 文件 系统 ， 节 点 间 控 制 信息 和 数据 传输 过 程 中 使 用 的 协议 ， 包 括 RPC、HTTP、HTTPS、TCP， 这 些 协 议 相关 参数 都 是 可 以 自 定义 配置 的 ， 如 表 10-5 所 示 。 


表 10-5 HDFS 端 口 控制 参数 表 


参数 属性 名 
dfs.secondary.http.address 0.0.0.0:50090 
dfs.datanode.address 0.0.0.0:50010 


dfs.datanode.http.address 0.0.0.0:50075 
dfs.datanode.1ipc.address 0.0.0.0:50020 
dfs.http.address 0.0.0.0:50070 


dfs.datanode.https.address 0.0.0.0:50475 
dfs.https.address 0.0.0.0:50470 


备份 名 称 节点 的 HITP 协议 访问 地 址 与 端口 
数据 节点 的 TCP 管理 服务 地 址 和 站 口 


数据 节点 的 HTTP 协议 访问 地 址 和 端口 
数据 节点 的 IPC 服务 访问 地 址 和 端口 


名 称 节 点 的 HITP 协议 访问 地 址 与 端口 
DataNode 的 HITPS 协议 访问 地 址 和 端口 
名 称 刷 点 的 HITPS 协议 访问 地 址 和 端口 


在 通常 情况 下 可 以 直接 使 用 表 10-5 中 的 默认 端口 控制 参数 即 可 ， 如 果 相 关 端 口 被 别 的 应 用 占用 ， 则 必须 进行 自 定义 端口 以 保证 HDFS 的 服务 能 够 正常 运行 ， 同 时 还 需要 保证 防火 墙 对 这 些 端口 开放 ， 或 


者 直接 关闭 防火 墙 即 可 。 


2 .数据 存储 相关 配置 
在 HDFs 中 具体 数据 存储 相关 的 配置 包括 数据 存储 的 路 径 、 存 储 文件 的 操作 信息 ， 以 及 存储 数据 时 文件 块 的 大 小 配置 等 ， 具 体 参数 如 表 10-6 所 示 。 


表 10-6 HDFS 数 据 存 储 参数 表 


参数 属性 名 默 认 值 参数 意义 
dfs.data.dir $ {hadoop.tmp.dir}/dfs/data 数据 节点 块 在 本 地 存放 的 目录 


dfs.name.dir $ {hadoop.tmp.dir}/dfs/name 存储 NameNode 元 数据 的 目录 
dfs.name.edits.dir 仓储 文件 操作 过 程 信息 的 目录 
dfs.block.size 默认 的 文件 块 大 小 为 64MB 
dfs.max.objects | 文件 数 、 目 录 数 、 块 数 的 最 大 数量 


3. 见 余 存 储 配 置 


在 HDFs 中 ， 文 件 元 数据 的 可 靠 性 是 通过 SecondNameNode 的 元 余 存 储 保证 的 ; 文件 数据 的 可 靠 性 是 通过 文件 块 的 元 余 存 储 复制 实现 的 ， 块 的 复制 数 越 多 ， 文 件 可 靠 性 越 高 ， 但 是 需要 以 存储 空间 为 代 
价 。 因 此 ， 在 实际 应 用 中 对 于 一 些 重要 的 文件 可 以 将 文件 块 的 元 余 复 制 因子 设置 得 大 一 些 ， 以 提高 数据 可 靠 性 和 执行 效率 ， 通 常 使 用 默认 参数 值 为 3 即 可 。 同 时 用 户 还 可 以 自 定义 最 大 /最 小 复制 因子 ， 具 体 
参数 如 表 10-7 所 示 。 


表 10-7 HDFS 宛 余 存 储 参 数 表 


参数 属性 名 参数 意义 
2 
] 


dfs.replication | 默认 的 块 复制 数量 
dfs.replication.max 2 块 复制 的 最 大 数量 
dfs.replication.min i 块 复制 的 最 小 数量 


4. 文 件 权 限 配置 


文件 权限 相关 配置 参数 ， 如 表 10-8 所 示 。 


表 10-8 HDFS 文 件 权 限 参 数 表 


dfs.web.uegi Web 接口 访问 的 用 户 名 和 组 账户 
dfs.permissions 进行 文件 操作 时 的 权限 检查 标志 
dfs.permissions.supergroup 超级 用 户 的 组 名 定义 

5 


dfs.datanode.data.dir.perm fh 数据 市 点 的 存储 块 的 目录 访问 权限 设置 


5. 安 全 性 参数 配置 
HDFS 的 安全 性 参数 主要 是 指 HDFS 的 安全 模式 设置 、 是 否 支 持 HTTPS 协 议 访 问 、SSL 密 匙 配置 等 参数 ， 具 体 参数 如 表 10-9 所 示 。 


表 10-9 HDFS 安 全 性 参数 表 


局 动 安全 模式 的 国 值 设 定 

当 国 值 达到 量 值 后 扩展 的 时 限 

HTTPS 访问 方式 标识 
端 指定 HTTPS 访问 标识 

SSL 四 服务 闯 的 配置 文件 

数据 节点 访问 令 牌 标识 

升级 访问 密 钥 时 的 间隔 时 间 

dfs.block.access.token.lifetime 访 i 令 牌 的 有 效 昌 EE 


dfs.namenode.delegation.key. “方太 上 代理 令 脾 的 主 key 的 更 新 间隔 时 间 
. 86 400 000 
update-interval 24 小 时 
dfs.namenode.delegation.token. 6 ; Ei es 
本 604 800 000 代理 令 牌 的 有 效 时 间 的 最 大 值 为 7 天 
max-lifetime 
dfs.namenode.delegation.token. , ee 
- 86 400 000 代理 令 牌 的 更 新 时 间 为 24 小 时 
renew-interval 


6. 心 跳 统计 参数 配置 


参数 属性 名 
dfs.safemode.threshold.pct 
dfs.safemode.extension 
dfs.https.enable 
dfs.https.need.client.auth 
dfs.https.server.keystore.resource 
dfs.block.access.token.enable 


dfs.block.access.key.update.interval 


在 HDFS 中 会 通过 心跳 检测 机 制 来 统计 与 文件 相关 的 重要 参数 ， 具 体 相关 参数 ， 如 表 10-10 所 示 。 


表 10-10 ”HDFS 心 跳 统 计 参 数 表 


参数 属性 名 参数 时 义 
dfs.df.interval 磁盘 空间 统计 间 隅 为 6 秒 


块 写 人 出 错时 的 重 试 次 数 
块 的 报告 间隔 时 间 为 1 小 时 
块 顺序 报告 的 间 隐 时 间 

数据 节点 的 心跳 检测 间隔 时 间 


dfs.client.block.write.retries 
dfs.blockreport.interval Msec 
dfs.blockreport.initialDelay 
dfs.heartbeat.interval 


dfs.namenode.decommission. cn 
NameNode 检查 数据 市 点 是 否 已 退役 的 间隔 时 间 
interval 
NameNode 每 次 间 隅 时 间 检 查 是 否 已 退役 的 数据 


per.interval 节点 数目 


dfs.replication.interval NameNode 计算 复制 块 的 内 部 间隔 时 间 


7.DataNode 列 表 控 制 


dfs.namenode.decommission.nodes. 


在 HDFS 管 理 维护 中 往往 需要 对 实际 DataNode 的 生效 列表 进行 控制 ， 这 在 删除 或 者 添加 DataNode 节 点 时 非常 有 用 ，HDFS 管 理 员 可 以 在 不 重启 HDFS 集 群 的 同时 通过 参数 修改 方便 地 管理 DataNode 列 
表 ， 相 关 参 数 如 表 10-11 所 示 。 


表 10-11 DataNode 列 表 管 理 参 数 


参数 属性 名 参数 意义 


dfs.hosts 肤 认 为 空 ， 表 示人 允许 所 有 配置 允许 与 NameNode 连接 的 主机 地 址 文件 
dfs.hosts.exclude 默认 为 空 ， 表 示 没 有 被 禁止 配置 不 允许 与 NameNode 连接 的 主机 地 址 文件 


8. 其 他 参数 配置 


除了 上 述 几 种 类 型 的 HDFs 参 数 外 ， 还 有 其 他 的 相关 控制 参数 ， 用 户 也 可 以 自 定义 配置 ， 具 体 参数 如 表 10-12 所 示 。 


表 10-12 HDFS 其 他 常用 参数 表 


参数 属性 名 默 认 值 参数 意义 
dfs.datanode.handler.count 数据 廊 点 的 服务 连接 处 理 线程 数 
dfs.datanode.dns.interface default 效 据 廊 点 来 用 IP 地 址 标识 
dfs.datanode.dns.nameserver default 指定 DNS 的 IP 地 址 
dfs.replication.considerLoad true 加 载 目 标 或 不 加 载 的 标识 
dfs.default.chunk.view.size 32 768 浏览 时 的 文件 块 大 小 设置 为 32KB 


每 个 卷 预 留 的 空闲 空间 数量 


名 称 广 点 连接 处 理 的 线程 数量 


dfs.datanode.du.reserved 


[EN 
OO 


dfs.namenode.handler.count 


(组 ) 
参数 属性 名 默 认 值 参数 意义 
dfs.balance.bandwidthPerSec 1 048 576 负载 均衡 时 数据 市 点 可 利用 的 市 宽 最 大 但 
dfs.access.time.precision 3 600 000 允许 访问 文件 的 时 间 精 确 到 1 小 时 
dfs.support.append false 是 否 允 许 链 接 文 件 指 定 
dfs.datanode.failed.volumes. 能 够 导致 DataNode 市 点 终止 服务 的 坏人 硬盘 最 大 数 ，0 表示 只 
tolerated 要 有 磁盘 出 钠 就 停止 DataNode 服务 


10.7.5 MapReduce 参 数 配 置 


MapReduce 的 参数 是 通过 配置 文件 HADOOP_ HOME/conf/mapred-site.xml 指 定 的 ， 默 认 的 MapReduce 人 参数 配置 文件 为 SHADOOP_ HOME/srcmapred/mapred-default.xml， 这 个 默认 的 配置 
文件 也 是 不 推荐 修改 的 ， 如 果 用 户 需 要 自 定 义 MapReduce 参 数 配 置 可 以 在 mapred-site.xml 中 增加 ， 同 样 MapReduce 在 启动 时 会 自动 加 载 mapred-site.xml 并 履 盖 默认 配置 mapred-default.xml 中 的 相同 
参数 选项 。MapReduce 系 统 控制 属性 参数 有 上 百 个 ， 下 面 分 别 分 类 进行 介绍 。 


1.JobTracker 控 制 参数 
JobTracker 是 MapReduce 系 统 的 Master 节 点 ， 在 配置 时 至 少 需要 设置 JobTracker 的 RPC 地 址 和 端口 ， 同 时 用 户 还 可 以 自 定义 JobTracker 的 HTTP 服 务 端 口 和 地 址 ，JobTracker 管 理 的 线程 数 等 参数 ， 
具体 如 表 10-13 所 示 。 


表 10-13 JobTracker 控 制 参 数 表 


参数 属性 名 默 认 值 参数 意义 
mapred.job.trackerhttp.address 0.0.0.0:50030 JobTracker 的 HTTP 服务 硕 访 问 交口 和 地 址 
JobTracker 管理 线程 效 ， 线 程 效 比例 是 任务 管理 跟踪 
mapred.job.tracker.handler.count Ni 
f 妆 《二 的 0.04 
当 用 户 的 完成 作业 数 达 100 后 ， 将 其 放 和 人 作业 历史 文 
maximum 作 中 


mapred.jobtracker.restart.recover 允许 任务 管理 需 恢 复 时 采用 的 方式 
mapred.jobtracker.iob.history. block. ; 区 
4 作业 历史 文件 块 的 大 小 为 3MB 


0 
00 


mapred.jobtracker. completeuserjobs. 


S1Ze 
mapreduce.job.split.metainfo. maxsize | 10 000 000 分 隅 元 信息 文件 的 最 大 但 是 10MB 以 下 
mapred.jobtracker.maxtasks.per.job 一 个 单独 作业 的 任务 数 设置 
2.TaskTracker 参 数 配 置 


TaskTracker 是 真正 的 数据 处 理 节点 ， 每 个 TaskTracker 节 点 允许 同时 运行 的 最 大 map 数 量 和 最 大 reduce 数 量 默认 是 2， 在 实际 生产 集群 中 需要 依据 TaskTracker 节 点 的 CPU 核 心 来 确定 ， 通 常情 况 下 一 
个 CPU 核心 对 应 一 个 任务 槽 位 ， 同 时 还 需要 为 重 试 任 务 以 及 推测 式 任务 预 留 槽 位 。 用 户 除 了 配置 TaskTracker 的 模 位 参数 外 ， 还 可 以 对 TaskTracker 进 行 更 加 细致 的 配置 ， 具 体 参 数 如 表 10-14 所 示 。 


表 10-14 TaskTracker 控 制 参 数 表 


参数 属性 名 
mapred.task.tracker.report.address 
mapred.tasktracker.map.tasks.maximum 
mapred.tasktracker.reduce.tasks.maximum 
mapred.tasktracker.resourcecalculatorplugin 
mapred.tasktracker.taskmemorymanager. 
monitoring-1nterval 
mapred.tasktracker.tasks. 
sleeptime-before-sigkill 


mapred.tasktracker.dns.1nterface 
mapred.tasktracker.dns.nameserver 


mapred.task.tracker.http.address 


tasktracker.http.threads 
mapred.task.tracker.task-controller 


mapreduce.tasktracker.eroup 


mapred.tasktracker.indexcache.mb 


3.MapReduce 数 据 目 录 配 置 


在 MapReduce 处 理 数据 时 还 需要 配置 很 多 数据 目录 ， 这 些 数据 目录 主要 包括 三 类 : 第 一 类 
临时 目录 在 MapReduce 处 理 数据 时 也 是 必 不 可 少 的 ， 这 些 临 时 目录 依赖 于 变量 


12 .0 


参数 意义 

TaskTracker 的 RPC 服务 从 地 址 和 闹 口 号 
TaskTracker 最 多 可 同时 

TaskTracker 最 多 二 


个 用 户 访问 资源 信息 


运行 的 map 任务 数 
可 同时 运行 的 reduce 任务 数 


的 类 实例 


上 


默认 为 空 


指定 的 一 


5000 监控 TaskTracker 任务 内 存 使 用 率 的 时 间 间 陋 


TaskTracker 发 出 进程 终止 后 ， 
ee 5 
任务 管理 跟 蹊 带 是 否 报告 卫 地 址 名 的 开关 
作业 和 任务 管理 跟踪 器 之 间 通 讯 方式 采用 的 
DNS 服务 的 主 贞 名 或 IP 地址 
TaskTracker 的 HTTP 服务 融 的 地 址 和 端口 
HTTP 服务 器 的 工作 线程 数量 
任务 管理 大 的 设 定 ， 默 认为 : 
Sn DefaultTaskController 


默认 为 空 任务 管理 霸 的 组 成 员 设 定 


任务 管理 跟 踩 融 的 索引 由 存 的 最 大 容量 


间 隅 5 秒 后 发 
5000 


default 
default 


0.0.0.0:30060 


DefaultTaskController 


是 历史 作业 记录 相关 目录 ; 第 二 类 是 作业 监控 信息 存储 路 径 ; 第 三 类 是 处 理 数据 过 程 中 的 临时 目录 。 其 中 ， 
hadoop.tmp.dir 所 配置 的 目录 ， 默 认 hadoop.tmp.dir 参 数 被 配置 为 TaskTracker 节 点 的 /tmp 目 录 ， 而 /tmp 目 录 是 Linux 系 统 


的 临时 目录 ， 不 是 稳定 的 数据 目录 ， 因 此 用 户 至 少 需要 自 定 义 配 置 hadoop.tmp.dir 属 性 值 ， 或 者 对 相关 的 临时 目录 都 独立 进行 自 定义 配置 。MapReduce 数 据 目 录 控 制 参数 配置 如 表 10-15 所 示 。 


参数 属性 名 
hadoop.Job.hlistory.locatlon 


mapred.job.tracker.history. 


completed.location /done 
mapred.local.dir 


mapred.system.dir 


参数 属性 名 
mapreduce.jobtracker.staging. 


root.dir 
mapred.temp.dir 
mapred.child.tmp 


mapred.lob.tracker.persist. 


Jobstatus.dir 


mapred.skip.out.dir 


4.Sort 和 shuffle 参 数控 制 


$ {hadoop.log.dir}/history 


$ {hadoop.job.history.location' 


$ {hadoop.tmp.dir}/mapred/local 


$ {hadoop.tmp.dir}/mapred/system 


${hadoop.tmp.dir}/mapred/staging 


${hadoop.tmp.dir}/mapred/temp 


/jobtracker/JobsInfo 


表 10-15 ”MapReduce 数 据 目 录 控 制 参 数 表 
认 值 参数 意义 


历史 作业 日 志 记录 存放 路 


已 完成 作业 的 历史 文件 的 存放 目录 


MR 的 中 间 数 据 文件 存放 目录 
MR 的 控制 文件 存放 目录 


参数 意义 
每 个 正在 运行 作业 文件 的 存放 区 


件 存 放 区 
MR 任务 信息 的 存放 目录 


MR 临时 共享 文 


作业 管理 跟 踩 融 的 信息 存放 目录 
跳 过 记录 的 输出 目录 


目录 的 logs/skip 下 


默认 会 写 人 输出 


Sort 和 shuffle 是 MapReduce 框 架 中 非常 重要 的 处 理 阶 段 ， 在 刚 搭 建 好 集群 时 一 般 直 接 使 用 默认 的 相关 参数 值 即 可 ， 然 后 针对 实际 的 生产 环境 以 及 作业 业务 类 型 等 调解 Sort 和 shuffle 参 数 的 值 ， 以 提高 


集群 的 处 理 效率 。 具 体 参 数 如 表 10-16 所 示 。 


表 10-16 ”MapReduce 排 序 参数 表 


a | 


参数 属性 名 意 


I 
10.sort.factor 排 完 序 的 文件 在 合并 时 打开 的 文件 句柄 数 

io.sort.mb 排序 文件 的 内 存 缓存 大 小 为 100MB 

10.sort.record.percent 排序 线程 阻塞 的 内 存 绥 存 剩余 比率 

i0.sort.spill.percent 080 当 绥 存 占用 量 为 该 伸 时 ， 线 程 需 要 将 内 容 先 备份 到 磁盘 中 


mapreduce.reduce.shuffle. ee Reduce 任务 连接 任务 管理 需 获 得 Map 输出 时 的 总 耗 时 是 3 
connect.timeout 分 钟 


map.sort.class QuickSort 排 夺 键 的 排序 类 指定 org.apache.hadoop.util.QuickSort 


mapreduce.reduce.shuffle. 
180 000 Reduce 任务 等 生 Map 输出 数据 的 总 耗 时 是 3 分 钟 
read.timeout 


mapred.inmem.merge.threshold 1000 内 存 中 的 合并 文件 数 设 置 
mapred.job.shuffle.merge.percent 从 绥 存 占 内 存 的 多 少 百 分 比 开 始 进 行 merge 操作 


mapred.iob.reduce.input.butffer. 0 
| sort 完成 后 Reduce 计算 阶段 用 来 缓解 数据 的 百分比 
percent 
5.Map 和 Reduce 任 务 参数 配置 


在 Map 和 Reduce 任 务 相 关 参 数 中 ， 用 户 最 常用 到 的 是 设置 执行 作业 的 Map 数 量 的 参数 mapred.map.tasks， 设 置 Reduce 数 量 的 参数 mapred.reduce.tasks， 以 及 控制 每 个 Map 对 应 输入 数据 的 切 分 参 
数 选项 mapred.min.split.size。 通 常用 户 在 提交 作业 时 设置 这 些 参数 即 可 。 除 了 这 三 个 最 常用 到 的 参数 之 外 ， 还 有 很 多 对 Map 和 Reduce 任 务 更 精细 的 控制 参数 选项 ， 具 体 参数 如 表 10-17 所 示 。 


表 10-17 Map 和 Reduce 任 务 参 数 表 


参数 属性 名 
mapred.map.tasks 
mapred.reduce.tasks 
mapred.map.max.attempts 
mapred.reduce.max.attempts 
mapred.reduce.parallel.coples 
mapreduce.reduce.shuffle.maxfetchfailures 
mapred.map.tasks.speculative.execution 
mapred.reduce.tasks.speculative.execution 
mapred.job.reuse.jvm.num.tasks 
mapred.min.split.size 
mapred.line.input.format.linespermap 


mapred.jobtracker.taskScheduler. 


maxRunningTasksPerJob 
mapreduce.reduce.input.limit 
mapred.skip.attempts.to.start.skipping 
mapred.skip.map.auto.incr.proc.count 
mapred.skip.reduce.auto.incr.proc.count 
mapred.skip.map.max.skip.records 
mapred.skip.reduce.max.skip.groups 
mapred.task.profile.maps 


mapred.task.profile.reduces 


mapred.local.dir.minspacestart 


mapred.local.dir.minspacekill 


mapred.combine.recordsBeforeProgress 


mapred.merge.recordsBeforeProgress 


[Be 


时 | 号 上 | 叶 ILI 雯 一 全 | 上 | 上 | 一 | 
所 | | SS 
© |o © 


mapred.task.cache.levels 


6.JVM 参 数 配置 


默认 值 


true 


不 涉 蕊 
0 ~ 2 


10 000 
10 000 


pp 


参数 意义 
每 个 作业 默认 的 Map 任务 数 为 2 
每 个 作业 默认 的 Reduce 任务 数 为 1 
Map 任务 的 重 试 次 数 
Reduce 任务 的 重 试 次 数 
在 复制 阶段 时 Reduce 并 行 传送 的 值 
取 Map 输出 的 最 大 重 试 次 数 
Map 任务 的 多 实例 并 行 运 行 标识 
Reduce 任务 的 多 实例 并 行 运行 标识 
每 台 虚 拟 机 运行 的 任务 数 
Map 的 输入 数据 被 分 解 的 块 数 设置 
每 次 切 分 的 行 数 设置 
作业 同时 运行 的 任务 数 的 最 大 值 ， 黑 认 值 为 空 ， 表 示 
限制 
Reduce 任务 输入 量 的 限制 
在 跳 转 模式 未 被 设 定 的 情况 下 任务 的 重 试 次 数 
MapRunner 在 调用 Map 功能 后 的 增 量 处 理 方式 设置 
在 调用 Reduce 功能 后 的 增 量 处 理 方式 设置 
Map 任务 中 运行 跳 过 坏 记 录 的 最 多 条 数 
Reduce 任务 中 运行 跳 过 的 最 多 记录 组 数目 
设置 Map 任务 的 分 析 范 围 
设置 Reduce 任务 的 分 析 范 围 
当 MR 本 地 中 介 文 件 被 删除 时 ， 不 允许 有 任务 执行 的 


数量 值 


MR 本 地 中 介 文 件 被 删除 时 ， 所 有 任务 都 已 完成 的 数 


在 聚合 处 理 时 的 记录 块 数 
在 汇总 处 理 时 的 记录 块 数 
任务 绥 存 级 别 设 置 


Hadoop 是 基于 JVM 的 ， 因 此 在 启动 作业 任务 时 都 先 启动 一 个 JVM 来 执行 Map 或 Reduce 任 务 程序 ， 在 默认 情况 下 JVM 的 最 大 可 用 扒 内 存 为 200MB， 也 就 是 在 默认 情况 下 用 户 的 Map 或 者 Redcue 程 序 
不 能 使 用 超过 200MB 的 内 存 空间 ， 如 果 超 出 了 就 会 扫 出 内 存 溢出 错误 。 在 实际 生产 环境 下 需要 根据 实际 情况 适当 设置 得 大 一 些 ， 但 是 用 户 在 使 用 Streaming 接 口 执行 作业 时 不 受 这 个 参数 的 控制 ， 这 是 因为 
streaming 框 架 中 用 户 的 Map 或 Reduce 可 执行 程序 是 作为 独立 进程 启动 的 ， 需 要 使 用 参数 stream.memory.limit 来 控制 。JVM 相 关 的 参数 如 表 10-18 所 示 。 


参数 属性 名 
mapred.child.java.opts -Xmx200m 


mapred.child.ulimit 


mapred.cluster.map.memory.mb 


mapred.cluster.reduce.memory.mb 


hs 


mapred.cluster.max.map.memory.mb 
mapred.cluster.max.reduce.memory.mb | -1 


mapred.job.map.memory.mb 


| | | | LY 
oo Co Oo Co bs . 
ei 
本 


mapred.job.reduce.memory.mb 


7. 数 据 压缩 参数 配置 


数据 压缩 在 Hadoop 框 架 中 是 非常 重要 的 ， 在 Hadoop MapReduce 框 架 中 Map 的 输出 是 中 间 数 据 ， 并 不 会 持久 化 到 HDFS， 而 是 需要 通过 Shuffle 和 Sort 阶 段 传输 到 Reduce 端 进行 运算 ， 这 个 


表 10-18 JVM 内 存 参数 表 


参数 意义 


局 动 task 定理 子 进程 时 的 内 存 设置 
虚拟 机 所 需 内 存 的 设 定 


服务 器 分 配给 一 个 mapslots 的 内 存 大 小 
服务 顺 分 配给 一 个 reduceslots 的 内 存 大 小 


是 交 作 业 时 配置 所 需 的 Map 内 存 大 小 


服务 天 允许 TaskTracker 上 运行 Map 任务 的 最 大 内 存 限制 

服务 需 人 允许 TaskTracker 上 运行 Reduce 任务 的 最 大 内 存 限制 
用 户 
用 户 提交 作业 时 配置 所 需 的 Reduce 内 存 大 小 


数据 传输 


约 占 整个 Reduce 任 务 运 行 时 间 的 三 分 之 一 。 因 此 ， 如 果 对 Map 的 输出 数据 进行 了 压缩 ， 则 可 以 大 大 减少 数据 的 传输 量 ， 也 节省 了 集群 带宽 资源 。HDFs 的 资源 往往 也 是 宝贵 的 ， 因 此 对 Reduce 的 输出 进行 
压缩 也 是 很 有 必要 的 ， 这 可 以 提高 整个 集群 HDFs 的 存储 密度 。Hadoop 对 用 户 提供 了 压缩 相关 参数 选项 ， 用 户 不 仅 可 以 控制 是 否 使 用 压缩 ， 还 可 以 控制 具体 的 压缩 算法 ， 相 关 参 数 如 表 10-19 所 示 。 


表 10-19 ”数据 压缩 参数 表 


mapred.output.compress 作业 的 输出 是 否 压缩 


| 

a A 作业 输出 采用 NONE、RECORD 和 BLOCK 三 种 压缩 方 
mapred.output.compression.type de ee 
式 中 的 一 种 写 入 流 式 文件 


扑 缩 类 的 设置 ， 默 认为 : org.apache.hadoop.io.compress. 


mapred.output.compression.codec DetaultCodec _ 
DetaultCodec 


mapred.compress.map.output false Map 的 输出 是 否 压 缩 
Map 的 输出 压缩 的 实现 类 指定 ， 默 认为 : org.apache. 


hadoop.lo.compress.DeftaultCodec 


mapred.map.output.compression.codec | DefaultCodec 


8. 作 业 调 度 器 配置 
Hadoop 的 调度 器 非常 灵活 ， 是 一 种 插入 式 框架 ， 可 以 很 方便 地 引入 第 三 方 调度 器 ， 并 且 仪 仅 通 过 修改 配置 文件 就 可 以 集成 到 Hadoop 系 统 中 ， 具 体 的 配置 参数 如 表 10-20 所 示 。 


表 10-20 ”调度 器 配置 参数 


参数 属性 名 点 认 值 参数 意义 


org.apache.hadoop.mapred. 


mapred.jobtracker.taskScheduler 调度 需 的 实现 类 


JobQueueTaskScheduler 


ixf 


表 10-20 中 参数 mapred.jobtracker.taskScheduler 就 是 用 于 配置 Haddoop 调 度 器 的 具体 实现 类 ， 用 于 设置 Hadoop 使 用 的 调度 器 ， 默 认为 FIFO 调 度 器 ， 具 体 实现 类 为 JobQueue-TaskScheduler。 
个 参数 仅仅 是 告诉 Hadoop 要 使 用 哪个 调度 器 ， 具 体 还 需要 单独 对 调度 器 本 身 的 配置 文件 进行 设置 。 
9. 作 业 队列 参数 配置 


Hadoop 默 认 的 FIFO 调 度 器 仅 支 持 一 个 队列 ， 因 此 对 于 FIFO 来 讲 不 需要 进行 队列 设置 。 而 在 实际 生产 环境 下 ， 集 群 往往 会 使 用 支持 多 队列 和 多 用 户 的 调度 器 。 例 如 公平 调度 器 和 容量 调度 器 ， 这 个 时 候 
就 需要 根据 业务 需求 进行 队列 设置 ， 相 关 参 数 如 表 10-21 所 示 。 


表 10-21 作业 队列 参数 表 


参数 属性 名 参数 意义 
mapred.queue.names 作业 队列 配置 
mapred.acls.enabled 引 定 ACL (访问 控制 列表 ) 
mapred.queue.default. state 定义 队列 的 状态 
mapred.job.queue.name 已 提交 作业 的 队列 设 定 


mapreduce.job.acl-modify-job 指定 可 修改 作业 的 ACL 


mapreduce.job.acl-view-job 默认 为 空 指定 可 浏览 作业 的 ACL 


10.TaskTracker 列 表 控 制 


在 MapReduce 系 统 中 用 户 往往 需要 对 集群 中 的 TaskTracker 生 效 列表 进行 控制 ， 这 在 删除 或 者 添加 TaskTracker 节 点 时 非常 有 用 。TaskTracker 列 表 还 有 一 个 重要 的 用 途 就 是 ， 在 一 个 大 的 集群 中 部 署 了 
多 个 不 同 节 点 的 集群 ， 集 群 管理 员 可 以 在 不 重启 MapReduce 的 情况 下 仅 通 过 修改 参数 对 集群 中 TaskTracker 的 生效 节点 进行 控制 ， 具 体 参数 如 表 10-22 所 示 。 


表 10-22 TaskTtacket 列 表 参 数 


参数 属性 名 默 认 值 参数 意义 
mapred.hosts 9 吕 与 作业 管理 跟 踊 带 连 接 的 主机 名 ， 上 默认 为 空 ， 表 示人 允许 了 所 有 节点 
mapred.hosts.exclude 默认 为 空 不 可 与 作业 管理 跟踪 融 连 接 的 主机 名 ， 默 认为 室 ， 表 示人 允许 所 有 节点 


11. 作 业 日 志 相 关 参 数 配置 
MapReduce 中 与 用 户 作 业 日 志 相 关 的 配置 参数 如 表 10-23 所 示 。 一 般 这 些 参数 使 用 默认 值 即 可 ， 不 需要 进行 特别 配置 ， 当 然 管 理 员 也 可 以 依据 生产 集群 中 的 作业 需求 情况 进行 自 定 义 配置 。 


表 10-23 ”作业 日 志 相 关 参 数 表 


参数 属性 名 
mapred.userlog.limit.kb 
mapred.userlog.retain.hours 


Jobclient.output.filter 


12. 心 跳 统 计 参 数 配置 


M2 
上 


每 个 任务 的 用 户 日 志文 件 大 小 
作业 完成 后 的 用 户 日 志 留 存 时 间 为 24 小 时 
控制 任务 的 用 户 日 志 输 出 到 作业 端 时 的 过 滤 方 式 


默 认 值 


FAILED 


心跳 是 Hadoop 中 的 一 个 非常 重要 的 信息 交互 方式 ， 默 认 值 就 可 以 满足 生产 集群 的 正常 需要 ， 集 群 管理 员 也 可 以 对 这 些 心跳 相关 参数 进行 自 定义 设置 ， 具 体 参 数 如 表 10-24 所 示 。 


参数 属性 名 


10.nap.index.sk1ip 
mapred.tasktracker.expiry.1interval 


mapreduce.tasktracker.outofband. 


heartbeat 


mapreduce.tasktracker.outofband. 


heartbeat.damper 

mapred .task.timeout 
mapred.heartbeats.1in.second 
J]ob.end.retry.attempts 


J]ob.end.retry.1nterval 
mapred.healthChecker.script.path 


mapred.healthChecker. script.args 


mapred.healthChecker.interval 


mapred.healthChecker.script.timeout 


mapreduce.job.counters.limit 


13. 其 他 参数 配置 


表 10-24 心跳 统计 参数 表 


参数 意义 
IT 


任务 管理 跟 蹊 融 不 发 送 心 跳 的 昧 计时 间 间 隔 超过 600 秒 ， 则 任 


600000 | 全 East 
务 管理 跟踪 器 失效 


false 在 任务 结束 后 发 出 一 个 额外 的 心跳 信号 


1 000 000 当 和 额外 心跳 信号 发 出 量 太 多 时 ， 则 适当 阻止 


如 果 任 务 无 读 写 时 的 时 间 为 10 分 钟 ， 则 任务 将 被 终止 

作业 管理 跟 踩 希 每 秒 钟 达到 的 心跳 数量 为 100 

Hadoop 和 试 连接 通知 大 的 次 数 

通知 笠 试 回应 的 间隔 操作 为 30 秒 

健康 监控 脚本 所 在 的 绝对 路 径 ， 默 认为 空 ， 
服务 

健康 监控 脚本 的 输入 参数 


600 000 


| 
OO 
Ce 


30 000 
表示 关闭 健康 监控 


60 000 节点 心跳 信息 的 间隔 

a 健康 监控 脚本 的 超时 设置 ， 超 过 这 个 时 间 无 响应 则 被 标注 为 
unhealthy 

120 作业 计数 器 的 限制 数目 


除了 上 述 几 种 类 型 的 MapReduce 参 数 外 ， 还 有 其 他 相关 的 控制 参数 ， 用 户 也 可 以 自 定义 配置 ， 具 体 参 数 如 表 10-25 所 示 。 


参数 属性 名 
mapred.job.tracker.retiredjobs. 
cache.S1Ze 
mapred.job.tracker.jobhistory. 
lru.cache.size 
mapred.child.env 
mapred.submit.replication 
keep.failed .task.files 
mapred.user.jJobcont.limit 


mapred.max .tracker.blacklists 


表 10-25 mapted-site.xml 常 用 参数 表 


默 认 值 参数 意义 
1000 作业 状态 为 已 不 在 执行 的 保留 在 内 存 中 的 量 为 1000 


作业 历史 文件 装载 到 内 存 的 数量 


子 进 程 的 参数 设置 ， 默 认为 空 ， 需 要 用 户 目 定义 添加 
是 交 作 业 文 件 的 复制 级 别 

失败 任务 是 否 保存 到 文件 中 

Jobconf 的 大 小 为 SMB 


任务 管理 跟踪 器 中 黑 名 单列 表 的 数量 


-一 
OO 


~ 《 
上 oh 
ee 
LA 
om 


53 242 880 


-一 
(~ 


参数 属性 名 默 认 值 参数 意义 
mapred.jobtracker.black!list. 


i 1 | 180 | E 务 管 理 跟 监 人 超时 180 分 钟 中 任 务 将 波 重 启 
fault-timeout-window 


mapred.max.tracker.failures 任务 管理 跟 蹊 融 的 失败 任务 数 设 定 


mapred.job.tracker.persist. Sy 0 
ee false 是 否 持 久 化 作业 管理 跟 踩 硕 的 信息 
Jobstatus.active 
mapred.job.tracker.persist. i a 
lobstatus.] 持 人 化 作业 和 于 和 忆 了 站 日 9 信息 保 存 时 目 
Jobstatus.hours 
mapreduce.job.complete.cancel. A 
站 true 居 复 时 是 否 变 更 令 牌 

elegation.tokens 


10.7.6 masters 和 slaves 配 置 


表 ，JobTracker 的 slaves 文 件 代 表 所 有 TaskTracker 列 表 ， 由 于 从 节点 同时 运行 DataNode 和 TaskTracker， 所 以 通常 NameNode 和 JobTracker 的 slaves 文 件 内 容 是 相同 的 。 


在 主 控 节 点 上 执行 控制 脚本 启动 、 停 止 集群 时 ， 会 读 取 slaves 文 件 来 决定 哪些 从 节点 需要 启动 DataNode/TaskTracker 进 程 。 
10.7.7 ”客户 端 配置 


用 户 在 使 用 Hadoop 集 群 时 首先 需要 安装 并 配置 Hadoop 客 户 端 ， 客 户 端的 Hadoop 版 本 最 好 和 集群 中 部 署 的 Hadoop 版 本 保存 一 致 。 在 安装 时 首先 要 确保 Java 环 境 安装 正确 ， 为 了 稳定 性 ， 客 户 端的 
Java 环 境 也 需要 和 和 集群 中 的 Java 版 本 保持 一 致 ， 用 户 直 接 解压 Hadoop 的 安装 包 即 可 完成 安装 。 然 后 就 是 配置 ， 至 少 需要 配置 java 安 装 路 径 ，NameNode 的 RPC 地 址 和 端口 ， 以 及 JobTracker 的 RPC 地 址 和 
端口 ， 主 要 配置 步骤 如 下 : 


步骤 1 配置 java 安 装 路 径 , 编 辑 $b;HADOOP_HOME/conf/hadoop-env.sh 文 件 ， 指 定 客户 端 机 器 上 的 Java 安 装 路 径 。 


步骤 2 配置 NameNode 的 RPC 地 址 和 端口 ， 编 加 $4HADOOP_HOME/conf/core-site.xml 文 件 ， 配 置 参 数 fs.default.name 来 指定 Hadoop 集 群 HDFS 中 NameNode 的 RPC 地 址 和 端口 。 用 户 在 客户 端 
操作 HDFS 文 件 系统 时 默认 就 会 访问 这 个 参数 指定 的 集群 HDFS 信 息 。 


步骤 3 ”配置 JobTracker 的 RPC 地 址 和 端口 ， 编 辑 $4HADOOP_HOME/conf/mapred-site.xml 文 件 ， 配 置 参 数 mapred.job.tracker 来 指定 Hadoop 集 群 的 MapReduce 中 JobTracker 的 RPC 地 址 和 端口 。 
用 户 在 提交 作业 时 默认 会 提交 到 这 个 参数 指定 的 集群 MapReduce 系 统 中 。 


步骤 4 可 选 的 ， 用 户 可 以 将 客户 端 相关 Hadoop 人 参数 直接 配置 到 Hadoop 的 三 个 配置 文件 中 ， 用 户 在 操作 HDFS 或 者 提交 作业 到 MapReduce 中 时 便 会 使 用 自 定义 的 配置 参数 ， 当 然 用 户 也 可 以 在 操作 命 
令 中 以 命令 行 参数 选项 的 形式 自 定 义 客 户 端的 参数 。 


10.8 ”局 动 和 停止 


正确 安装 并 配置 了 Hadoop 集 群 之 后 就 可 以 启动 集群 ， 在 目录 $HADOOP_HOME/bin 下 ，Hadoop 为 用 户 提供 了 启动 和 停止 集群 的 相关 脚本 。 


在 集群 规模 较 小 的 情况 下 ，NameNode 和 JobfTracker 部 署 在 同一 节点 上 ， 并 且 HDFS 和 MapReduce 使 用 的 是 相同 的 用 户 名 进行 安装 的 ， 那 么 用 户 在 启动 时 可 以 直接 使 用 Hadoop 的 安装 用 户 登 录 
Master 节 点 ， 并 执行 $4HADOOP_HOME/bin/start-all.sh 来 启动 HDFS 和 MapReduce 还 要 通过 执行 $HADOOP_HOME/bin/stop-all.sh 来 停止 HDFS 和 MapReduce。 


在 实际 生产 集群 环境 下 ， 考 虑 到 集群 的 系统 安全 性 ， 往 往 使 用 不 同 的 用 户 分 别 独立 安装 部 署 HDFS 和 MapReduce， 在 启动 和 停止 时 需要 分 别 进行 ， 下 面 将 分 别 进行 讲述 。 
10.8.1 ”启动 /停止 HDFS 


首先 需要 以 HDFS 的 超级 用 户 hdfs 这 个 用 户 名 登录 HDFS 的 NameNode 节 点 ， 然 后 按照 以 下 步骤 启动 /停止 HDFS。 


步骤 1 如果 用 户 第 一 次 启动 HDFS， 首 先 需要 格式 化 HDFS， 命 令 如 下 : 


$HADOOP HOME/bin/hadoop namenode -format 


执行 该 命令 后 ， 会 在 参数 选项 dfs.name.dir 指 定 的 路 径 中 生成 NameNode 初 始 化 元 信息 ，HDFS 只 有 在 正确 初始 化 后 才 可 以 使 用 。 


SHADOOP HOME/bin/start-dfs.sh 


该 控制 脚本 会 启动 HDFS 集 群 的 NameNode、DataNode 和 SecondaryNameNode 进 程 ， 执 行动 作 如 下 : 
1) 在 本 地 节点 (NameNode 节 点 ) 启动 NameNode 守 护 进程 。 
2) 为 slaves 文 件 中 的 所 有 节点 启动 DataNode 守 护 进 程 。 


3) 为 masters 文 件 中 的 所 有 节点 启动 SecondaryNameNode 守 护 进 程 。 


步骤 3 ”如 果 用 户 需要 停止 HDFS， 则 执行 以 下 命令 : 


UY 


HADOOP HOME/bin/stop-dfs.sh 


$HADOOP HOME/bin/stop-dfs.sh 

该 控制 脚本 会 终止 NameNode、DataNode 和 SecondaryNameNode 进 程 ， 执 行动 作 如 下 : 

1) 在 本 地 节点 (NameNode 节 点 ) 停止 NameNode 守 护 进程 。 

2) 为 slaves 文 件 中 的 所 有 节点 停止 DataNode 守 护 进 程 。 

3) 为 masters 文 件 中 的 所 有 节点 停止 SecondaryNameNode 守 护 进 程 。 

除了 上 述 的 启动 /停止 总 命令 之 外 ， 还 可 以 通过 $HADOOP_HOME/bin/start-datanode.sh 命 令 来 独立 地 启动 /停止 DataNode 节 点 ， 这 对 于 新 添加 机 器 到 HDFS 集 群 时 非常 有 有 用， 管理 员 可 以 在 不 重启 


HDFS 和 集群 的 情况 下 独立 启动 DataNode 节 点 的 守护 进程 ，NameNode 会 通过 心跳 检测 到 新 加 入 节点 ， 并 将 之 列 入 HDFS 集 群 节点 列表 中 。 


10.8.2 ”启动 /停止 MapReduce 


步骤 1 执行 启动 MapReduce 脚 本 start-mapred.sh: 


$HADOOP HOME/bin/start-mapred.sh 


在 执行 上 述 启动 命令 后 会 执行 以 下 动作 : 
1) 在 本 地 节点 (JobTracker 机 器 ) 启动 JobTracker 守 护 进 程 。 
2) 为 slaves 文 件 中 的 所 有 节点 启动 TaskTracker 守 护 进程 。 


步骤 2 如果 用 户 需 要 终止 MapReduce 系 统 ， 则 执行 Stop-mapred.sh 命 令 : 


1 


HADOOP HOME/bin/stop-mapred.sh 


和 启动 MapReduce 系 统 类 似 ，stop-mapred.sh 脚 本 执行 后 会 进行 如 下 动作 : 
1) 在 本 地 节点 停止 JobTracker 守 护 进程 。 


2) 为 slaves 文 件 中 的 所 有 节点 停止 TaskTracker 守 护 进程 。 


10.8.3 ”启动 验证 


在 启动 HDFS 和 MapReduce 之 后 还 需要 初步 验证 系统 是 否 正 常 运行 ， 对 于 HDFS 来 讲 ， 首 先 需要 使 用 hdfs 用 户 分 别 登录 NameNode、DataNode 和 SecondaryNameNode 节 点 来 查看 相应 的 守护 进程 
是 否 存在 。 如 果 HDFS 启 动 正 常 ， 还 可 以 通过 浏览 器 HDFS 的 Web 界 面 查看 集群 的 状态 ， 默 认 访 问 地 址 为 : http://namenode.host:50070。 


在 启动 HDFS 时 ，NameNode 首 先进 入 安全 模式 。 在 安全 模式 下 ，HDFS 会 一 直 处 于 只 读 状态 ， 也 就 是 此 时 不 能 对 HDFS 进 行 任何 元 数据 操作 (新 建 、 删 除 文件 等 ) 。HDFS 的 安全 模式 是 由 参数 
dfs.safemode.threshold.pct (默认 值 0.999f) 控制 的 ， 当 HDFS 启 动 的 时 候 ， 只 有 DataNode 上 报 的 block 个 数 达 到 了 元 数据 记录 的 block 个 数 的 dfs.safemode.threshold.pct (默认 值 0.999) 倍 才 可 以 离 
开 安 全 模式 ， 否 则 一 直 是 这 种 只 读 模式 ， 当 然 也 可 以 通过 执行 HDFSs 管 理 命令 强制 离开 安全 模式 ， 命 令 如 下 : 


Rp 


HADOOP HOME/bin/hadoop dfsadmin -safemoqe leave 


对 于 MapReduce 来 讲 ， 首 先 用 户 需 要 使 用 mapreduce 用 户 名 分 别 登录 JobTracker 和 所 有 TaskTracker 节 点 机 器 以 查看 相应 的 守护 进程 是 否 存 在 ， 用 户 也 可 以 通过 浏览 器 访问 MapReduce 的 Web 界 面 
来 查看 是 否 启 动 成 功 ， 默 认 地 址 为 http:/Vjobtracker.host:50030。 


如 果 集 群 或 节点 启动 失败 ， 可 以 查看 $HADOOP_ LOG _DIR 中 的 日 志 来 进行 问题 定位 。 


10.9 ”集群 基准 测试 

在 完成 集群 搭建 之 后 ， 首 先 要 验证 是 否 能 正常 启动 ， 集 群 启动 的 验证 已 经 在 前 面 进行 了 讲述 ， 接 下 来 非常 重要 的 一 点 就 是 如 何 验证 集群 是 否 可 以 正常 工作 以 及 集群 的 处 理性 能 ， 在 正式 交付 使 用 之 前 这 
是 至 天 重要 的 。 

对 集群 的 性 能 测试 称 之 为 基准 测试 ， 由 于 Hadoop 中 的 可 控 参 数 超过 200 个 ， 生 产 集群 的 最 终 性 能 不 仅 受 到 配置 参数 的 影响 ， 还 和 集群 的 物理 环境 有 很 大 关系 ， 因 此 也 需要 通过 基准 测试 来 帮助 调试 和 优 
化 集群 的 性 能 。 


10.9.1 HDFS 基 准 测试 


对 于 分 布 式 文件 系统 来 讲 ， 存 储 节点 的 硬盘 失效 是 一 种 常见 的 硬件 故障 ， 而 导致 这 种 硬盘 失效 的 操作 基本 都 是 |/O 相 关 操 作 ， 因 此 对 HDFS 分 布 式 文件 系统 进行 基准 测试 最 主要 的 是 测试 HDFS 的 集群 |/O 
性 能 。Hadoop 提 供 的 TestDFSIO 工 具 可 以 完成 对 HDFS 的 基准 测试 任务 。TestDFSIO 工 具 会 在 每 个 单独 的 Map 任 务 中 对 数据 进行 读 / 写 操作 ， 并 在 Map 过 程 中 统计 每 个 输入 块 的 相关 信息 ， 这 些 信息 会 在 
Reduce 过 程 中 进行 聚合 累加 ， 并 产生 汇总 报告 。 


TestDFSIO 工 具 的 使 用 命令 可 以 参考 6.4 节 测试 命令 中 的 说 明 ， 下 面 仅 通 过 举例 说 明 在 HDFS 基 准 测试 中 TestDFSIO 的 使 用 。 


首先 是 HDFs 的 MO 写 入 性 能 的 基准 测试 。 例 如 ， 要 向 HDFS 集 群 中 并 行 写 入 1000 个 文件 ， 每 个 文件 大 小 为 1024MB， 则 TestDFSIO 测 试 命令 如 下 : 


SHADOOP HOME/bin/hadoop jar \ 

SHADOOP HOME./hadoop-test-x.y.z.jar TestDFSIO \ 
-write -nrFEiles 1000 \ 

-fileSize 1024 


TestDFSIO 测 试 命令 执行 完成 之 后 会 在 本 地 的 当前 目录 下 生成 TestDFSIO_results.log 文 件 ， 这 个 文件 中 记录 了 HDFS 和 集群 的 |/O 写 入 基准 测试 的 结果 ， 其 中 包括 完成 的 时 间 、 并 行 写 文件 的 数目 、 一 共处 
理 的 数据 量 、HDFS 集 群 吞吐 量 (单位 : MB/s) 、 平 均 MO 率 (单位 : MB/s) 、MO 率 标准 偏差 、 测 试 执行 时 间 等 统计 量 。 


然后 还 需要 对 HDFS 的 |/O 读 取 性 能 进行 基准 测试 ， 同 样 并 行 地 从 HDFS 中 读 取 1000 个 刚才 写 入 的 文件 ， 命 令 如 下 : 


$SHADOOP HOME/bin/hadoop jar \ 

$HADOOP HOME/hadoop-test-x.y.2z.jar TestDFSIO \ 
-read -nrFiles 1000 \ 

-fileSize 1024 


测试 完成 之 后 也 会 在 本 地 磁盘 的 当前 目录 下 生成 TestDFSIO_results.log，HDFS 的 读 性 能 测试 结果 就 在 这 个 文件 中 ， 测 试 的 指标 信息 和 写 入 性 能 一 样 。 
在 完成 测试 后 需要 对 测试 过 程 中 产生 的 数据 进行 删除 ， 命 令 如 下 : 


$SHADOOP HOME/bin/hadoop jar \ 
$HADOOP HOME/hadoop-test-x.y.2z.jar TestDFSIO - clean 


在 上 述 命令 中 ，hadoop-test-x.y.zjar 是 Hadoop 版 本 中 自 带 的 测试 工具 打包 文件 ， 读 者 在 进行 测试 时 需要 根据 自己 的 版 本 著 换 x.y.z， 例 如 ， 使 用 Hadoop-1.0.4 时 为 Hadoop-test-1.0.4.jar。 


10.9.2 ”MapReduce 基 准 测试 
在 通常 情况 下 ， 衡 量 一 个 分 布 式 处 理 系统 的 计算 处 理 能 力 时 最 常 使 用 排序 操作 ， 在 工业 界 中 通常 以 1TB 数 据 排序 的 性 能 测试 来 评价 一 个 集群 系统 的 处 理 能 力 ，Hadoop 就 是 在 2008 的 1TB 排 序 基准 评估 中 
赢得 第 一 名 的 ， 以 耗 时 209 秒 而 闻名 业界 。 


Sort 操 作 也 正 是 Hadoop MapReduce 并 行 处 理 框架 的 一 个 显著 特征 ， 在 每 个 Map 输 出 之 后 会 对 数据 以 key 为 键 进行 排序 ， 然 后 进行 Shuffle 传 输 到 Reduce 端 。 在 执行 reduce() 函 数 之 前 会 对 来 自 不 同 
Map 端 的 数据 再 次 整体 进行 排序 ， 因 此 Sort 的 性 能 对 整个 MapReduce 的 处 理性 能 至 关 重要 。 在 Hadoop 中 有 一 个 专门 对 MapReduce 进 行 基准 测试 的 工具 一 TeraSort 命 令 ， 一 个 完整 的 TeraSort 测 试 需要 
按 以 下 三 个 步骤 执行 。 


步骤 1 用 TeraGen 生 成 随机 数据 ，TeraGen 命 令 如 下 : 


SHADOOP HOME/bin/hadoop jar \ 
$HADOOP HOME/hadoop-test-x.y.z.jar \ 
teragen <number of 100-byte rows> <output dir> 


例如 ， 要 生成 1TB 的 随机 数据 ， 输 出 到 HDFS 的 目录 /test/terasort， 命 令 如 下 : 


SHADOOP HOME/bin/hadoop jar \ 
$HADOOP HOME/hadoop-test-x.y.zZ.jar \ 
teragen 10000000000 /test/terasort 


TeraGen 产 生 的 每 行 数据 格式 如 下 : 


<10 bytes key><10 bytes rowid><78 bytes filler>\r\n 


其 中 : 
key 是 一 些 随 机 字符 ， 每 个 字符 的 ASCII 码 取 值 范围 为 [32，126]。 
:rowid 是 一 个 整数 ， 右 对 齐 。 


:filler 由 7 组 字符 组 成 ， 每 组 有 10 个 字符 (最 后 一 组 为 8 个 ) ， 字 符 从 A~z 依 次 取 值 。 


步骤 2 对 步骤 1 产生 的 随机 数据 运行 TeraSort， 执 行 命令 如 下 : 


IADOOP HOME/bin/hadoop jar \ 

HADOOP HOME./hadoop-test-x.y.z.jar \ 
erasort \ 
test/terasort /test/terasort-output 
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上 述 命令 会 对 由 TeraGen 产 生 的 1TB 随 机 数据 进行 排序 ， 排 序 结果 会 输出 到 HDFS 的 /test/terasort-output 目 录 中 。 


步骤 3 ”用 TeraValidate 验 证 排序 输出 数据 的 正确 性 ， 验 证 命令 如 下 : 


~、 


IADOOP HOME/bin/hadoop jar \ 

HADOOP HOME./hadoop-test-x.y.z.jar \ 
eravalidate \ 
test/terasort-output /test/terasort-output-validate 
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校 验 后 生成 的 校 验 报告 输出 到 目录 /test/terasort-output-validate 中 。 


10.9.3 ”综合 性 能 测试 


上 面 讲述 了 如 何 针对 HDFS 和 MapReduce 进 行 基准 测试 ， 而 在 实际 生产 集群 中 往往 存储 节点 也 是 计算 节点 ， 也 就 是 HDFS 和 MapReduce 作 为 一 个 整体 系统 对 外 提供 服务 ， 因 此 很 有 必要 对 Hadoop 集 群 
系统 进行 综合 性 能 的 基准 测试 。 幸 运 的 是 ，Hadoop 本 身 就 提供 了 这 样 的 一 个 基准 测试 工具 一 一 Gridmix。Hadoop Gridmix 具 备 评测 大 规模 数据 处 理 系统 所 需 的 各 个 功能 模块 ， 包 括 产生 数据 、 生 成 并 提交 
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作业 、 统 计 作 业 完 成 时 间 等 。 


Gridmix 通 过 模拟 Hadoop 集 群 中 的 实际 负载 来 对 Hadoop 做 性 能 基准 测试 。 首 先 Gridmix 根 据 用 户 设 定 的 参数 生成 大 量 数据 和 一 批 作业 ， 然 后 同时 提交 这 些 作 业 ， 最 后 统计 出 这 批 作 业 的 运行 时 间 。 为 
了 尽 可 能 地 模拟 实际 业务 中 的 各 种 类 型 作业 ，Gridmix 自 带 了 各 种 具有 代表 性 的 作业 ， 包 括 streamSort、javaSort、webdataScan、combiner、monsterQuery、webdataSort 等 。 下 面 介 绍 如何 使 用 
Gridmix 工 具 进 行 Hadoop 基 准 性 能 测试 ， 主 要 步骤 如 下 。 


步骤 1 编译 Gridmix。 进 入 gridmix 源 代码 目录 并 执行 ant 进 行 编译 ， 命 令 如 下 : 


cd $HADOOP HOME/src// benchmarks/gridmix2 
ant 


上 述 命 令 执行 之 后 就 会 在 build 子 目录 生成 相应 的 gridmix2.jar 文 件 。 


步骤 2 ”配置 环境 变量 。 编 辑 文件 gridmix-env-2 至 少 需要 配置 以 下 环境 变量 : 


HADOOP HOME // Hadoop 安 装 目录 

HADOOP VERSION // Hadoop 版 本 号 ， 例 如 Hadoop-1.0.4 
HADOOP CONF DIR // Hadoop 的 配置 文件 目录 ， 默 认 ${HADOOP HOME }/conf 
E REAL DATA  // 测试 中 是 否 使 用 大 数据 集 


US 


步骤 3 ”作业 配置 。Gridmix 提 供 了 一 个 默认 的 作业 配置 文件 gridmix_conf.xml， 用 户 也 可 以 根据 需要 进行 修改 ， 包 括 作业 的 类 型 和 数量 、 作 业 处 理 的 数据 量 大 小 、Reduce 数 目 、 是 否 对 数据 结果 进 


压缩 等 重要 参数 。 例 如 ， 我 们 配置 10 个 Java sort 小 作业 类 型 ， 其 中 有 8 个 作业 要 每 个 作业 设置 15 个 Reduce， 另 外 2 个 作业 每 个 设置 70 个 Reduce， 配 置 如 下 。 


<property> 
<name>javaSort. smallJobs .numOfJobs</name> 
<value>8,2</value> 
<description></description> 

</property> 

<property> 
<name>javaSort .smallJobs.numOfReduces</name> 
<value>15,70</value> 
<description></description> 

</property> 


步骤 4 ”生成 测试 数据 。 使 用 Gridmix 自 带 的 generateGridmix2data.sh 生 成 测试 所 需 的 测试 数据 ， 命 令 如 下 : 


./generateGridmix2Data.sh 


/— 


人 


生成 数据 量 的 大 小 是 由 gridmix_conf.xml 中 的 配置 确定 的 ， 默 认 参 数 配置 下 至 少 需要 4TB 的 HDFs 人 存储 空间 ， 数 据 压 缩 率 是 4x， 用 户 可 以 通过 修改 配置 参数 
(COMPRESSED DATA BYTES, UNCOMPRESSED DATA BYTES, INDIRECT_DATA_BYTES) 进行 控制 。 


步骤 5 执行 Gridmix 测 试 ， 执 行 命令 如 下 : 


./rungridmix 2 


脚本 运行 后 会 创建 start.out 来 记录 作业 运行 开始 的 时 间 ， 在 作业 结束 时 会 创建 end.out 来 记录 完成 时 间 。 


@ 提 示 除了 上 面 的 儿 种 类 型 测试 外 ，Hadoop 还 提供 了 丰富 的 基准 测试 ， 最 常用 的 如 下 : 


(1) MRBench: MRBench 会 运行 多 次 小 型 MapReduce 任 务 ， 主 要 作为 Sort 测 试 的 补充 ， 用 来 测试 MapReduce 系 统 对 小 作业 的 响应 速度 。 


(2) NNBench: NNBench 是 一 个 非常 有 用 的 测试 ， 用 来 对 NameNode 进 行 负载 测试 。 


10.10 “集群 搭建 实例 
前 面 讲解 的 内 容 更 多 的 是 从 集群 搭建 的 方法 和 主要 步骤 来 讲述 的 ， 本 节 通 过 一 个 小 型 集群 的 搭建 和 配置 实例 来 进一步 说 明 如 何 搭建 一 个 有 效 的 Hadoop 集 群 。 
10.10.1 “部署 策略 


规划 设计 一 个 10 个 节点 的 小 规模 测试 集群 ， 由 于 节点 数 较 小 ， 因 此 计划 将 NameNode、sSecondaryNameNode 和 JobTracker 都 部 署 在 一 台 物 理 服务 器 上 ， 从 节点 同时 部 署 DataNode 和 
TaskTracker。 这 里 暂时 对 集群 的 安全 性 不 做 过 多 考虑 ， 因 此 仪 仪 创建 一 个 hadoopadmin 用 户 作 为 集群 的 超级 用 户 来 安装 HDFS 和 MapReduce， 命 令 如 下 : 


useradd hadoopagdmin 


网 络 上 的 10 台 物理 机 器 都 部 署 在 一 个 机 架 下 ， 并 且 由 一 台 交 换 机 相连 接 。 由 于 所 有 节点 中 的 Hadoop 安 装 目录 需要 保持 一 致 ， 因 此 在 部 署 时 规定 Hadoop 统 一 安装 在 hadoopadmin 的 用 户 根 目 
录 /home/hadoopadmin 下 。 


10.10.2 ”软件 和 硬件 环境 


软件 环境 选择 Ubuntu 操 作 系 统 ，Hadoop 版 本 选择 稳定 的 Hadoop-1.0.4。 硬 件 环境 为 : 主 节 点 采用 24 核 心 CPU、64GB 内 存 、1TB 磁 盘存 储 配 置 ， 从 节点 采用 24 核 心 CPU、32GB 内 存 、4TB 磁 盘存 
储 。 具 体 环境 配置 如 表 10-26 所 示 。 


表 10-26 ”软件 和 硬件 环境 配置 


环境 类 型 主 节 由 从 市 操 
操作 系统 Ubuntu Server-64 位 Ubuntu Server-64 位 
Hadoop 版 本 Hadoop-1.0.4 
CPU 24 核 
内 存 32GB 
a ; 


主 节点 由 于 同时 部 署 NameNode、SecondaryNameNode 和 JobTracker， 对 性 能 要 求 很 高 ， 因 此 主 节 点 要 配置 较 高 的 CPU 和 内 存 ， 同 时 磁盘 配备 RAID 服 务 ; 从 节点 同时 运行 DataNode 和 
TaskTracker， 负 责 数据 存储 和 计算 ， 因 此 在 磁盘 配置 上 可 以 配置 较 大 的 4TB 磁 盘 ，24 核 心 CPU， 而 HDFS 本 身 有 元 余 存 储 机 制 ， 因 此 从 节点 不 配备 RAID 服 务 。 


从 节点 机 器 由 于 需要 负责 HDFS 文 件 的 数据 存储 ， 配 备 的 4TB 磁 盘 由 4 块 1TB 磁 盘 组 成 ， 因 此 还 涉及 磁盘 分 区 问题 ， 在 分 区 的 同时 要 考虑 分 块 大 小 及 参数 ， 本 实例 中 从 节点 的 磁盘 分 区 如 表 10-27 所 示 。 


表 10-27 ”从 节点 的 磁盘 分 区 配置 


挂 载 点 分 区 块 大 小 


/home / sda2 此 通 文 件 系统 (4KB) 


/home/data0 - 件 系 统 ( 64KB) 
和 系统 ( 64KB) 
件 系统 (64KB) 


交 件 系统 ( 64KB) 


/home/datal /dev/sdcl 大 块 文 


/home/data2 


/home/data3 


从 表 10-27 中 可 以 看 到 挂 载 点 “/” 和 “/home” 都 在 磁盘 设备 /dev/sda 中 ， 并 且 都 是 普通 文件 系统 ， 这 是 因为 Linux 系 统 需 要 安装 部 署 在 “/” 下 ,而 “/home” 为 Linux 用 户 目 录 ， 同 时 Hadoop 会 安 
六 部 署 在 用 户 目 录 下 ， 而 其 他 4 个 挂 载 点 分 别 对 应 4 块 磁盘 设备 ， 这 4 块 磁盘 空间 主要 是 用 于 HDFS 的 数据 存储 ， 而 HDFS 是 基于 大 块 的 分 布 式 文件 系统 ， 因 此 为 了 提高 访问 效率 在 分 区 时 使 用 大 块 文件 系统 进 
行 格式 化 。 


10.10.3 ”Hadoop 安 装 


在 正式 安装 Hadoop 之 前 需要 依据 10.5 节 介绍 的 事前 准备 步骤 进行 SSH 配 置 以 及 防火 墙 设置 ， 然 后 下 载 需 要 安装 的 Hadoop 版 本 ， 使 用 work 用 户 名 登录 Master 节 点 ， 将 Hadoop 版 本 解压 
到 /home/hadoopadmin 目 录 下 ， 命 令 如 下 : 


cd /home/hadoopagdmin 
jar -xzvf hadoop-1.0.4.tar.gz 


解压 之 后 编辑 Hadoop-1.0.4/conf/hadoop-env.sh 文 件 ， 至 少 要 配置 JAVA_HOME 环 境 变 量 ， 还 有 就 是 配置 HADOOP_HEAPSIZE 环 境 变 量 ， 默 认为 1000MB。 Master 节 点 需要 设置 得 大 一 些 ， 这 里 是 
Master 节 点 ， 因 此 设置 HADOOP_ HEAPSIZE=16000， 即 16GB。 接 下 来 就 是 进行 集群 的 各 种 参数 配置 了 ， 下 面 分 别 进 行 设置 。 


10.10.4 配置 core-site.xml 


Hadoop 相 关 的 核心 参数 都 在 配置 文件 core-site.xml 中 进行 设置 ， 至 少 需要 配置 HDFS 中 NameNode 的 RPC 地 址 和 端口 号 ， 并 且 自 定义 hadoop.tmp.dir 参 数 ， 在 生产 集群 环境 下 往往 还 需要 配置 HDFS 
的 回收 站 功能 ,具体 配置 如 下 : 


<configuration> 
<property> 
<name>fs.default.name</name> 
<value>hdfs:// master-hostname:29000</value> 
</property> 
<property> 
<name>hadoop.tmp.dir</name> 
<value>/home/work/hadoop-data</value> 
</property> 
<property> 
<name>fs.trash.interval</name> 
<value>1440</value> 
</property> 
</configuration 


上 述 参数 中 的 fs.default.name 用 于 配置 NameNode 的 主机 地 址 和 和 RPC 端口 号; hadoop.tmp.dir 参 数 通常 设置 为 用 户 根 目录 ; fs.trash.interval 用 于 配置 HDFS 的 回收 站 功能 ， 单 位 为 分 钟 ， 默 认 值 为 0， 
表示 关闭 HDFS 回 收 站 功能 。 在 回收 站 功能 启用 后 ， 当 用 户 执行 删除 HDFS 数 据 操作 后 其 实 并 没有 真正 删除 数据 ， 而 是 将 数据 移动 到 了 HDFS 上 用 户 当 前 目录 的 .Trash 目 录 下 ， 只 有 执行 删除 操作 
fs.trash.interval 后 才能 真正 将 数据 从 HDFS 上 删除 ， 这 对 于 因为 粗心 而 误 删 除数 据 的 用 户 来 说 是 非常 有 用 的 特性 。 


10.10.5 配置 hdfs-site.xml 


HDFS 中 的 主要 属性 参数 都 会 在 hdfs-site.xml 文 件 中 进行 配置 ， 在 生产 集群 环境 下 通常 需要 自 定义 设置 HDFS 的 元 数据 存储 目录 、HDFS 的 数据 存储 目录 、HDFS 中 的 文件 默认 块 大 小 、 复 制 因 子 参 数 等 ， 
一 个 配置 实例 如 下 : 


<configuration> 
<property> 
<name>dfs.name .dir</name> 
<value>$ {hadoop.tmp.dir}/dfs/name </value> 
</property> 
<property> 
<name>dfs.data.dir</name> 
<value>/home/data0/hdfs, /home/datal/hdfs, /home/data2/hdfs, 
/home/data3/hdfs</value> 
</property> 
<property> 
<name>dfs.replication</name> 
<value>3</value> 
<description> 设 置 HDFS 文 件 见 余 复 制 数 </description> 
</property> 
<property> 
<name>dfs .block.size</name> 
<value>134217728</value> 
<description> 设 置 HDFS 文 件 块 大 小 ， 单 位 为 字 节 </gdescription> 
</property 
</configuration 


在 上 述 hdfs-site.xml 配 置 中 ， 参 数 dfs.name.dir 用 于 设置 存储 NameNode 元 数据 的 目录 ; 参数 dfs.data.dir 用 于 设置 HDFS 中 实际 存储 文件 数据 的 目录 ， 多 个 磁盘 块 设备 使 用 逗号 隔 开 ， 这 样 设置 的 好 处 
是 集群 可 以 并 行使 用 多 个 块 磁盘 设备 的 |/O， 从 而 提高 HDFS 的 读 写 效率 ; dfs.replication 是 复制 因子 ， 通 常设 置 为 3， 对 于 一 些 公共 文件 或 者 重要 的 数据 可 以 设置 得 大 一 些 以 提高 访问 效率 ， 这 个 参数 用 户 在 
客户 端 也 是 可 以 自 定义 的 ; dfs.block.size 用 于 设置 文件 的 块 大 小 ， 默 认为 64MB， 可 以 依据 业务 需求 设置 合适 的 块 大 小 ， 这 里 设置 为 128MB。 


10.10.6 配置 mapred-site.xml 


MapReduce 框 架 相关 的 控制 参数 都 是 在 配置 文件 mapred-site.xml 中 进行 设置 的 ， 在 这 个 配置 文件 中 用 户 至 少 需要 设置 JobTracker 的 RPC 地 址 和 端口 ， 除 此 之 外 通常 还 需要 自 定 义 MapReduce 以 处 理 
相关 的 数据 目录 ，Map 和 Reduce 模 位 数 、JVM 人 参数 、 压 缩 等 重要 的 MapReduce 控 制 参数 ， 一 个 配置 实例 如 下 : 


<configuration> 
<property> 
<name>mapred.job.tracker</name> 
<value>master-hostname:29001</value> 
</property> 
<property> 
<name>mapred.1local .dir</name> 
<value>/home/data0/mapreduce/local, /home/datal/mapreduce/local, 
/home/data2/mapreduce/local, /home/data3/mapreduce/local </value> 
</property> 
<property> 
<name>mapred.compress.map.output</name> 
<value>true</value> 
</property> 
<property> 
<name>mapred.map.tasks</name> 
<value>100</value> 
</property> 
<property> 
<name>mapred.reduce.tasks</name> 
<value>10</value> 
</property> 
<property> 
<property> 
<name>mapred.tasktracker.map.tasks.maximum</name> 
<value>14</value> 
</property> 
<property> 
<name>mapred.tasktracker.reduce.tasks.maximum</name> 
<value>9</value> 
</property> 
<property> 
<name>mapred.child.java.opts</name> 
<Value>-Xmx1024m -Djava.net.preferIPv4Stack=true -XX:+UseParallelGC</value> 
</property> 


在 上 述 配 置 文件 中 ，mapred.job.tracker 用 于 设置 MapReduce 框 架 中 JobTracker 的 地 址 和 RPC 端 口号 ， 这 是 必须 设置 的 ， 在 本 实例 配置 中 设置 为 master-hostname: 29001， 其 中 master-hostname 
就 是 集群 中 Master 节 点 的 主机 名 或 者 IP，29001 是 相应 的 RPC 端 口号 ;参数 mapred.local.dir 用 于 设置 MapReduce 在 处 理 数 据 过 程 的 中 间 数 据 目 录 ， 由 于 Slave 节 点 的 存储 是 由 多 块 磁盘 设备 组 成 的 ， 因 此 
配置 为 多 个 挂 载 点 目录 和 HDFSs 的 数据 存储 目录 类 型 ， 这 样 也 可 以 提高 中 间 数 据 的 MO 效率 ， 从 而 提高 MapReduce 的 处 理 效率 ; 参数 mapred.compress.map.output 用 于 设置 Map 任 务 的 输出 是 否 压缩 ， 由 
于 Map 的 输出 往往 作为 中 间 数 据 结构 ， 并 不 持久 化 存储 到 HDFS (Reduce 数 目 非 0 情况 ) ， 同 时 Map 的 输出 还 需要 通过 shuffle 阶 段 传输 到 Reduce 端 ， 因 此 如 果 对 Map 输 出 的 中 间 数 据 进行 压缩 ， 那 么 就 可 
以 显著 减少 shuffle 阶 段 的 数据 传输 量 ， 同 时 减 小 网 络 带 宽 的 消耗 ， 因 此 在 实际 集群 中 往往 设置 为 启动 压缩 ; 参数 mapred.map.tasks 和 mapred.reduce.tasks 用 于 设置 默认 情况 下 (用 户 在 客户 端 提交 作业 
时 没有 指定 时 ) 的 Map 任 务 数 和 Reduce 任 务 数 ; 参数 mapred.tasktrackermap.tasks.maximum 用 于 设置 单个 TaskTracker 节 点 上 最 多 可 以 同时 运行 的 Map 任 务 数 ， 也 就 是 Map 覃 位 容量 ， 相 应 的 参数 
mapred.tasktrackerreduce.tasks.maximum 用 于 设置 单个 TaskTracker 节 点 上 最 多 可 以 同时 运行 的 Reduce 任 务 数 ， 也 就 是 Redcue 的 槽 位 容量 。 这 两 个 参数 在 设置 时 要 依据 Slave 节 点 的 CPU 核心 数 。 通 常 
单个 TaskTracker 节 点 上 Map 和 Reduce 的 槽 位 数 总 和 不 超过 CPU 的 核心 数 减 1， 减 去 1 的 目的 是 预 留 一 个 槽 位 ， 具 体 的 Map 和 Reduce 的 槽 位 数 分 配 则 需要 依据 业务 需求 ， 本 实例 中 单个 TaskTracker 节 点 上 
总 槽 位 数 为 23， 具 体 分 配 Map 模 位 为 14，Redcue 模 位 数 为 9， 这 样 计算 整个 集群 的 并 行 Map 模 位 数 为 140， 并 行 Reduce 槽 位 数位 90。 


在 TaskTracker 节 点 上 单个 任务 《Map 任务 或 Reduce 任 务 ) 启动 JVM 时 的 内 存 大 小 是 受 mapred.childjava.opts 控 制 的 ， 默 认为 200MB， 也 需要 依据 实际 业务 作业 的 内 存 消耗 设置 。 建 议 设置 时 还 需要 
保证 单个 节点 的 楼 位 数 *mapred.child.java.opts 小 于 单个 节点 的 总 物理 内 存 ， 同 时 在 节点 物理 内 存 充足 的 情况 下 可 以 根据 实际 作业 的 需求 设置 得 大 一 些 ， 在 本 实例 中 设置 为 1024MB， 


10.10.7 SecondaryNameNode 和 slave 


SecondaryNameNode 的 指定 需要 在 $4HADOOP_HOME/conf/master 文 件 中 配置 ， 一 行 一 个 主机 名 或 者 主机 IP， 在 Hadoop 启 动 时 会 通过 RPC 的 方式 启动 master 文 件 配置 的 SecondaryNameNode 守 
护 进行 。 在 本 实例 中 ， 由 于 SecondaryNameNode 和 NameNode 部 署 在 相同 的 物理 机 器 上 ， 因 此 在 master 文 件 中 指定 为 NameNode 的 主机 名 即 可 。 


slave 的 主机 列表 在 $HADOOP HOME/conf/slave 文 件 中 配置 ， 也 是 一 行 一 个 Slave 主 机 名 。 其 中 ，HDFs 中 的 Slave 中 用 于 指定 DataNode 列 表 ，MapReduce 中 的 slave 中 用 于 指定 TaskTracker 列 表 。 
在 本 实例 中 DataNode 和 TaskTracker 是 部 署 在 相同 的 物理 节点 上 的 (通常 DataNode 和 TaskTracker 是 不 分 离 部 署 的) ， 因 此 配置 相同 的 内 容 即 可 ，Hadoop 在 启动 或 者 停止 时 都 会 读 取 slaves 文 件 来 决定 哪 
些 从 节点 需要 启动 或 者 停止 DataNode/TaskTracker 进 程 。 


配置 完 ?econdaryNameNode 和 slave 列 表 后 ， 还 要 对 其 进行 Hadoop 的 安装 部 署 。 具 体操 作 是 将 Master 节 点 上 的 整个 Hadoop 目 录 分 发 到 master 文 件 和 slave 文 件 中 的 指定 机 器 列表 中 ， 在 分 发 时 需要 


保持 从 节点 和 主 节点 具有 相同 的 目录 位 置 。 


10.10.8 ”配置 作业 队列 


在 实际 生产 业务 中 往往 多 个 用 户 共享 一 个 大 的 Hadoop 集 群 ， 因 此 用 于 生产 环境 的 集群 至 少 需 要 支持 多 个 作业 队列 以 提供 给 不 同 的 用 户 使 用 ， 目 前 的 Hadoop 版 本 也 是 支持 多 队列 的 ， 并 且 可 以 通过 ACL 
对 每 个 队列 的 权限 进行 配置 管理 。 假 定 本 实例 集群 中 要 配置 3 个 队列 : app_offline、app_online 和 和 com 队列 。 队 列 权限 的 需求 为 : 任何 hadoop 用 户 都 可 以 向 队列 app_offline 中 提交 作业 ; 只 允许 work 用 户 
向 app_online 提 交 作 业 ; 只 允许 search 用 户 向 com 队 列 提交 作业 ， 同 时 授予 用 户 hadoop 具 有 管理 队列 app_online 的 权限 ， 要 实现 这 样 的 功能 可 以 按照 如 下 步骤 进行 配置 。 


步骤 1 在 mapred-site.xml 文 件 中 进行 配置 队列 ， 并 启动 ACL 管 理 ， 配 置 实例 如 下 : 


<property> 
<name>mapred.queue.names</name> 
<value>app offline,app online,com</value> 
<description> 设 置 集群 作业 队列 ， 队 列 名 之 间 以 逗号 分 隔 </description> 
</property> 
<property> 
<name>mapred.acls.enabled</name> 


<value>true</value> 
</property> 


在 上 述 配 置 实例 中 参数 mapred.queue.names 用 于 配置 集群 作业 队列 ; 参数 mapred.acls.enabled 为 true 则 表示 启用 ACL 权 限 管理 。 


步骤 2 ”在 mapred-queue-acls.xml 中 进行 权限 控制 的 配置 ， 配 置 实例 如 下 : 


<configuration> 

<property> 
<name>mapred.queue.app offline.acl-submit-job</name> 
<value>*</value> 
<description>"'*' 表 示人 允许 所 有 用 户 向 队列 app_offline 提 交 作 业 

</description> 

</property> 

<property> 
<name>mapred.queue.app online.acl-submit-job</name> 
<value>work</value> 
<description> 授 权 work 用 户 可 以 疝 队列 app_online 提 交 作业 
</description> 


</property> 

<property> 
<name>mapred.queue.com.acl-submit-job</name> 
<value>search</value> 
<description> 授 权 search 用 户 可 以 向 队列 com 提 交 作业 
</description> 

</property> 

<property> 
<name>mapred.queue.app online.acl-administer-jobs</name> 
<value>hadoop</value> 
<description> 配 置 用 户 hadoop 具 有 管理 队列 app_online 的 权限 

</property> 
</description> 


在 完成 上 述 配 置 之 后 还 需要 将 所 修改 的 配置 文件 同步 到 集群 中 的 所 有 节点 。 


10.10.9 ”配置 第 三 方 调度 器 


在 集群 完成 安装 之 后 ， 默 认 使 用 内 置 的 FIFO 调 度 器 。FIFO 仅 支持 单 队列 ， 所 有 用 户 提交 的 作业 统一 提交 到 一 个 队列 中 进行 排序 ， 然 后 按照 优先 级 和 先后 顺序 进行 调度 ， 一 次 只 能 调度 执行 一 个 作业 ， 这 
对 于 单 用 户 批 处 理 作业 来 说 较为 高 效 ， 而 生产 环境 中 有 多 用 户 、 多 种 类 型 作业 的 需求 ， 因 此 为 了 提高 作业 执行 效率 和 集群 的 共享 率 ， 建 议 在 实际 生产 集群 中 配置 多 用 户 调度 器 。 目 前 Hadoop 已 经 集成 了 公 
平 调度 器 FairScheduler 和 容量 调度 器 CapacityScheduler， 这 两 种 多 用 户 调度 器 的 高 效 性 和 稳定 性 都 已 经 在 商业 系统 中 被 验证 ， 用 户 可 以 依据 自身 的 业务 需求 进行 选择 ， 也 可 以 进行 二 次 开发 ， 研 发 适合 自 
身 业务 的 调度 器 。 


本 实例 的 调度 需求 如 下 : 
1) 局 用 公平 调度 器 。 
2) 三 个 队列 对 应 三 个 资源 池 (pool) 。 


3) 资源 池 app_offline 的 需求 : 最 小 分 配 Map 槽 位 数 30， 最 小 分 配 Reduce 槽 位 数 为 20; 同时 运行 的 Map 任 务 数 最 大 不 能 超过 60，Reduce 任 务 数 最 大 不 能 超过 30; 最 小 share preemption 的 时 间 维 度 
为 600 秒 。 


4) 资源 池 app_online 的 需求 : 最 小 分 配 Map 模 位 数 40， 最 小 分 配 Reduce 模 位 数 为 30; 同时 运行 的 Map 任 务 数 最 大 不 能 超过 80，Reduce 任 务 数 最 大 不 能 超过 40; 最 小 share preemption 的 时 间 维 度 
为 300 秒 。 


5) 资源 池 com 的 需求 : 最 小 分 配 Map 模 位 数 30， 最 小 分 配 Reduce 槽 位 数 为 20; 同时 运行 的 Map 任 务 数 最 大 不 能 超过 60，Reduce 任 务 数 最 大 不 能 超过 20; 最 小 share preemption 的 时 间 维 度 为 600 


秒 。 
依据 上 述 调度 器 的 需求 ， 可 以 进行 如 下 配置 。 


步骤 1 配置 启动 公平 调度 器 ， 编 辑 mapred-site.xml 文 件 ， 增 加 以 下 配置 : 


<property> 
<name>mapreduce.jobtracker.taskscheduler</name> 
<value>org.apache.hadoop.mapred.FairScheduler</value> 
</property> 


步骤 2 ”配置 公平 调度 器 控制 参数 ， 编 辑 fair-scheduler.xm| 文 件 ， 配 置 如 下 : 


<?xml] version="] .0"?> 
<allocations> 
<pool name="app offline"> 
<minMaps>30</minMaps> 
<minReduces>20</minReduces> 
<maxMaps>60</maxMaps> 
<maxReduces>30</maxReduces> 
<minSharePreemptionTimeout>600</minSharePreemptionTimeout> 
</pool> 
<pool name="app online"> 
<minMaps>40</minMaps> 
<minReduces>30</minReduces> 
<maxMaps>80</maxMaps> 
<maxReduces>40</maxReduces> 
<minSharePreemptionTimeout>300</minSharePreemptionTimeout> 
</pool> 
<pool name="com"> 
<minMaps>30</minMaps> 
<minReduces>20</minReduces> 
<maxMaps>60</maxMaps> 
<maxReduces>20</maxReduces> 
<minSharePreemptionTimeout>600</minSharePreemptionTimeout> 
</pool> 
</allocations> 


在 修改 完 这 两 个 配置 文件 之 后 同样 需要 将 文件 同步 分 友 到 集群 中 的 所 有 节点 。 


10.10.10 ”启动 与 验证 


使 用 hadoopadmin 用 户 登 录 Master 节 点 ， 然 后 按照 以 下 步骤 启动 。 


步骤 1 第 一 次 启动 时 需要 先 格 式 化 HDFS， 命 令 如 下 : 


1 


HADOOP HOME/bin/hadoop namenode -format 


步骤 2 启动 Hadoop 守 护 进程 ， 包 括 HDFS 和 MapReduce， 命 令 如 下 : 


$HADOOP HOME/bin/start-all.sh 


该 命令 相当 于 同时 执行 start-dfs.sh 和 和 start-mapred.sh， 执 行动 作 如 下 : 
1) 在 本 地 节点 (Master 节 点 ) 启动 NameNode、jJobTracker 守 护 进程 。 
2) 为 slaves 文 件 中 的 所 有 节点 启动 DataNode、TaskTracker 守 护 进行 。 


3) 为 masters 文 件 中 的 所 有 节点 启动 Secondary、NameNode 守 护 进程 。 


要 停止 Hadoop 执 行 stop-all.sh 命 令 ， 在 启动 之 后 用 户 可 以 登录 相应 的 机 器 节点 查看 守护 进程 是 否 存 在 ,或 者 直接 通过 Web 监 控 页 面 查 看 是 否 启动 正常 。 要 查看 公平 调度 器 是 否 启 动 正常 ， 可 以 通过 调 
度 器 的 Web 入 口 http://<jobtracker URL>/scheduler 来 确认 。 


在 初步 确认 启动 正常 之 后 ， 可 以 依据 10.9 节 的 内 容 对 集群 做 基准 性 能 测试 ， 然 后 依据 性 能 测试 结果 调整 相应 的 Hadoop 参 数 。 


10.11 小 结 

本 章 主要 从 实战 的 角度 讲述 了 如 何 搭建 一 个 可 用 于 生产 业务 的 Hadoop 生 产 集群 。 在 搭建 之 前 需要 进行 版 本 选择 。 本 章 还 针对 版 本 选择 问题 提出 了 几 个 基本 的 选择 原则 ， 然 后 从 集群 的 硬件 需求 、 软 件 
需求 、 虚 拟 化 等 角度 进行 了 详细 描述 。 在 进行 安装 集群 之 前 还 需要 做 好 相应 的 事前 准备 ， 包 括 安装 用 户 、Java 环 境 、SSH、 防 火 墙 等 。 在 完成 了 环境 准备 之 后 就 可 以 进行 集群 的 安装 和 配置 ， 安 装 完成 之 后 
还 需要 对 集群 进行 基准 测试 ， 本 章 分 别 从 HDFS 基 准 测试 、MapReduce 基 准 测试 和 综合 性 能 测试 三 个 方面 进行 了 描述 。 集 群 的 性 能 测试 是 进行 集群 参数 调 优 的 依据 ， 因 此 在 正式 交付 使 用 之 前 是 必须 进行 
的 ， 最 后 本 章 给 出 了 一 个 集群 的 搭建 实例 。 


第 11 章 Hadoop streaming 和 Pipes 编 程 实战 


Hadoop 虽 然 是 Java 语 言 实 现 的 ， 并 且 提 供 了 Java 语 言 的 MapReduce API， 这 对 于 Java 开 发 者 而 言 是 非常 容易 使 用 的 ， 那 么 是 否 可 以 使 用 其 他 的 计算 机 语言 来 编写 Hadoop 应 用 呢 ， 答 案 是 肯定 
的 ，Hadoop 作 为 一 个 通用 的 计算 平台 自然 给 使 用 不 同 语言 的 开发 者 提供 了 通用 的 编程 接口 ， 这 个 接口 就 是 streaming 和 Pipes 编 程 接口 ，streaming 通 过 标准 输入 和 标准 输出 支持 任何 计算 机 编程 应 用 ， 而 
Pipes 编 程 接 口 通过 Socket 可 以 很 好 地 支持 主流 的 C/C++ 语言 。 本 章 将 从 实战 的 角度 详细 介绍 这 两 个 编程 接口 的 使 用 方法 。 


11.1 Streaming 基础 编程 
在 前 面 的 章节 对 Streaming 原 理 和 实现 进行 了 详细 介绍 ， 那 么 如 何 使 用 Streaming 接 口 进行 MapReduce 编 程 呢 ? 下 面 针对 Streaming 的 编程 使 用 进行 讲述 。 


11.1.1 ”Streaming 编 程 入 门 


我 们 通过 一 个 经 典 实用 的 词 频 统计 例子 来 介绍 Hadoop Streaming 的 使 用 ， 这 里 使 用 Python 语 言 来 说 明 Streaming 的 基础 编程 方法 。 在 Streaming 框 架 中 Mapper 和 Reducer 都 是 作为 单独 的 进程 启动 
因此 需要 分 别 编写 可 执行 程序 ， 在 Mapper 中 需要 将 读 取 的 每 一 个 单词 输出 为 <word，1> 的 形式 输出 ， 在 Reducer 中 需要 对 同一 word 的 所 有 value 求 和 。 


艺 


Mapper 实 现 的 文件 名 为 wc_map.py， 代 码 如 下 : 


#!/usr/bin/env python 
import sys 

# 定 义 Map 输 出 提交 函数 
def emit (key,value): 


print >>sys.stdout, '%s\t%d' g (word, value) 
# 从 标准 输入 读 取 
for line in sys.stdin: 
words = line.strip() .split() 
for word in words: 
emit (key,1) 


在 wc_map.py 中 通过 标准 输入 sys.stdin 读 取 每 一 行 记录 ， 然 后 利用 split 切 分 单词 ， 将 每 一 个 单词 通过 emit(key，1) 提 交 到 标准 输出 sys.stdout。 这 里 还 需要 明确 一 点 ， 就 是 用 户 的 mapper 可 执行 程序 从 
标准 输入 读 取 每 一 行 记录 ， 而 标准 输入 的 数据 来 自 Hadoop 框 架 ， 具 体 是 PipeMapper 的 map(0 函 数 将 解析 后 的 <key，value> 写 入 用 户 mapper 的 标准 输入 。 对 于 默认 的 TextlnputFormat 格 式 ，key 是 每 一 
行 的 行 偏 移 ，value 是 每 一 行 记录 的 内 容 。Streaming 框 架 默 认 忽 略 了 key， 也 就 是 PipeMapper 的 map() 函 数 只 输出 value， 所 以 用 户 的 mapper 可 执行 程序 从 标准 输入 读 取 数据 时 只 考虑 每 一 行 的 内 容 
value， 而 不 用 考虑 key。 也 就 是 说 用 户 mapper 可 执行 程序 中 读 取 的 记录 默认 不 用 解析 <key，value> ， 只 需 考虑 value (每 一 行 的 内 容 ) 即 可 。 


Reducer 实 现 的 文件 名 为 wc_reducer.py， 代 码 如 下 : 


#!/usr/bin/env Python 
import sys 
# 定 义 Reduce 输 出 提交 函数 
def emit (key,value): 
if(key == None) :return 
print >>sys.stdout, '%s\t%d' % (key, value) 
wc Sum = 0 
last word = None 
for line in sys.stdin: 
keyvalue = line.strip() .split('\t') 
If (Len (keyvalue !=2)): 
continue 
word = keyvalue[0] 
value = int (keyvalue[0]) 
if (word == last word) : 
wc sum += Value 
else: 
emit (last word,wc sum) 
last word = word 
wc Sum = Value 
emit (last word,wc_sum) # 提 交 最 后 一 个 单词 及 频数 


在 wc_reducer.py 中 也 是 通过 标准 输入 sys.stdin 读 取 来 自 map 的 输出 ， 并 以 At” 切 分 解析 来 获取 key 和 value， 这 是 因为 在 Streaming 框 架 中 Mapper 的 输出 默认 以 Tab 键 人 \t” 分 割 key/value 的 。 在 编 
写 Reducer 时 需要 考虑 的 一 个 核心 问题 就 是 key 的 边界 问题 ， 由 于 Reduce 的 输入 是 经 过 排序 的 ， 因 此 相同 key 的 <key，value> 记 录 会 连续 读 取 ， 这 里 需要 一 个 last_word 用 于 记录 上 一 个 key 的 值 ， 其 初始 值 
为 None。 如 果 读 取 的 当前 key (这 个 例子 为 word 变 量 ) 的 值 不 等 于 上 一 个 key 值 last word 时 表示 key 的 边界 ， 这 时 就 需要 提交 输出 的 <last word，wc_sum> 到 标准 输出 ， 在 例子 中 通过 emit(key，value) 
函数 提交 到 标准 输出 ， 同 时 在 读 取 结 束 时 还 需要 提交 最 后 一 个 要 输出 的 <key，value>。 


在 编写 完 Mapper 和 Reducer 可 执行 程序 之 后 就 需要 编写 streaming 的 作业 提交 脚本 ， 这 里 将 提交 脚本 命名 为 run_wc.sh， 代 码 如 下 : 


#!/bin/bash 

# 设 置 Hadoop 的 客户 端 根 目 录 

HADOOP HOME =/home/nuoline/hadoop-client 

# 输 入 和 输出 变量 

wc input path=/data/app/nuoline/wordcount input 


wC_output path=/data/app/nuoline/wordcount output 

# 如 果 输 出 目录 存在 则 删除 ，Haqoocp 要 求 输出 目录 路 径 不 存在 

$shadoop path/bin/hadoop fs -test -e S$wc output path 

if [ $ -eq 0 ];then 
$hadoop path/bin/hadoop fs -rmr $$wc output Path 


dd 

# 启 动作 业 提 交 的 streaming 命 令 

SHADOOP HOME/bin/hadoop jar \ 

$HADOOP HOME/contrib/streaming/hadoop-streaming-1.0.4.jar \ 
-D mapred.job.name="wordcount job" \ 
-numReduceTasks=10 \ 
-input S$wc input path \ 
-output S$wc output path \ 
-mapper "Python wc map.py" \ 
-reducer "python wc reduce.py" \ 

-file ./wc map.py \ 

-file ./wc reduce.py 


在 上 述 启动 脚本 中 ， 参 数 mapred.job.name 用 于 指定 用 户 的 作业 名 ， 属 于 Hadoop 作 业 的 通用 参数 ， 需 要 使 用 -D 标 示 ， 指 定 作业 名 便于 在 作业 运行 监控 的 Web 页 面 进行 查看 和 区 分 ; 参数 - 
numReduceTasks 用 于 指定 单词 统计 作业 wordcount job 的 Reduce 数 目 ; 参数 -input 用 于 指定 输入 数据 的 路 径 ， 必 须 是 HDFS 上 的 目录 ; 参数 -output 用 于 指定 输出 目录 ， 必 须 是 在 HDFS 上 不 存在 ， 输 出 
目录 会 在 作业 运行 时 自动 创建 ; 参数 -mapper 用 于 指定 处 理 数 据 的 Mapper 可 执行 程序 ， 需 要 直接 可 执行 的 命令 ，streaming 的 PipeMapper 正 是 通过 这 个 参数 指定 的 命令 来 启动 用 户 Mapper 处 理 进 程 的 ; 
参数 -reducer 用 于 指定 处 理 程序 的 Reducer 可 执行 程序 ， 也 是 需要 直接 可 执行 的 命令 ，streaming 的 PipeReducer 就 是 通过 这 个 参数 指定 的 执行 命令 来 启动 Reducer 处 理 进程 的 ; 参数 -file 用 于 分 发 文件 ， 在 
streaming 框 架 中 用 户 的 Mapper 和 Reducer 可 执行 程序 都 是 需要 分 发 到 集群 各 计算 节点 的 ， 因 此 都 需要 使 用 -file 参 数 进 行 分 友 ， 如 果 不 分 发 会 在 运行 过 程 中 出 错 而 导致 最 终 作 业 失 败 。 


11.1.2 ”Map 和 Reduce 数 目 


在 Streaming 作 业 中 用 户 可 以 通过 Hadoop 作 业 参 数 mapred.map.task 和 mapred.reduce.tasks 来 设置 作业 的 Map 和 Reduce 数 目 ， 也 可 以 使 用 streaming 的 参数 numReduceTasks 来 指定 Reduce 的 数 
目 ， 示例 代 码 如 下 : 


HADOOP HOME =/home/nuoline/hadoop-client 
# 启 动作 业 提 交 的 streaming 命 令 
$HADOOP HOME/bin/hadoop jar \ 
$HADOOP HOME/contrib/streaming/hadoop-streaming-1.0.4.jar \ 

-D mapred.job.name="wordcount example" \ 

-D mapred.map.tasks=10 \ 

-D mapred.min.split.size=134217728 \ 

-numReduceTasks=2 \ 

-input /data/nuoline/wc input \ 

-output /data/nuoline/wc output \ 

-mapper cat \ 

-reducer wc 


在 上 述 代码 中 ， 通 过 Hadoop 通 用 参数 mapred.map.tasks 来 设置 Map 的 数量 ， 通 过 Streaming 的 numReduceTasks 参 数 来 指定 Reduce 的 数量 ， 通 过 mapred.min.split.size 参 数 来 指定 每 个 Map 输 入 文 
件 的 最 小 切 分 大 小 ， 单 位 是 字 节 ， 这 里 设置 为 128MB=1024x1024x128=134217728。 需 要 说 明 的 是 ， 这 里 通过 mapred.map.tasks 设 置 的 Map 数 目 仅 仅 是 一 个 提示 ， 实 际 的 Map 数 目 和 四 个 参数 有 关 : 包 
括 HDFSs 的 块 大 小 、 最 小 切 分 大 小 (默认 HDFS 块 大 小 ) 、 每 个 文件 的 大 小 、 用 户 设置 的 数目 。 最 终 的 Map 数 目 是 通过 这 四 个 参数 联合 起 作用 的 ， 具 体 计算 方法 可 以 参考 第 5 章 中 的 Map 和 Reduce 数 目 设 置 
小 结 。 用 户 通过 mapred.map.tasks 设 置 的 Map 数 目 大 于 系统 依据 切 分 大 小 计算 出 来 的 数目 时 才 会 起 作用 ， 在 没有 指定 mapred.min.split.size 参 数 时 Hadoop 默 认 是 按照 HDFs 的 块 大 小 来 对 文件 进行 split 
的 ， 每 一 个 split 分 块 就 对 应 一 个 Map， 但 如 果 用 户 的 输入 数据 都 是 小 于 HDFS 块 大 小 的 小 文件 ， 则 每 个 小 文件 对 应 一 个 Map。 


在 实际 生产 环境 下 ， 往 往 需要 对 用 户 使 用 的 资源 进行 控制 ， 限 制 资源 使 用 的 原因 是 如 果 用 户 设置 过 多 的 Map 或 Reduce 数 目 会 导致 单个 作业 占用 过 多 的 Map 和 Reduce 模 位 数 资 源 进 而 影响 其 他 用 户 作 业 
的 运行 ， 这 时 可 以 设置 作业 最 多 同时 运行 的 Map 和 Reduce 任 务 数量 ， 通 过 参数 mapred.job.map.capacity 和 mapred.job.reduce.capacity 进 行 设 置 。 例 如 设置 用 户 作 业 最 多 同时 使 用 M 个 Map 模 位 和 N 个 
Reduce 槽 位， 代码 如 下 : 

-D mapred.job.map.capacity=M \ 

-D mapreadq.job .requce .capacity=N 

如 果 用 户 不 想 限 制作 业 的 Map 和 Reduce 容 量 ， 则 可 以 设置 上 述 两 个 参数 的 值 为 0 ( 即 M 或 N 为 0) ， 如 果 用 户 没有 配置 上 述 两 个 参数 ， 系 统 默认 其 值 为 0， 也 就 是 不 限制 容量 ， 在 实际 生产 环境 下 建议 用 
户 在 提交 作业 时 对 Map 和 Reduce 容 量 进行 限制 。 


11.1.3 队列、 优先 级 及 权限 


在 Streaming 中 也 可 以 指定 作业 队列 和 作业 优先 级 。 队 列 和 优先 级 是 Hadoop 调 度 系 统 中 两 个 很 重要 的 概念 。 在 Hadoop 系 统 中 默认 采用 的 是 基于 先进 先 出 原则 的 FIFO 调 度 ，FIFO 调 度 器 仅 支 持 一 个 队 
列 ， 在 实际 生产 环境 下 Hadoop 往 往 集成 了 支持 多 用 户 、 多 队列 的 调度 系统 。 例 如 ， 公 平 调度 器 FairScheduler 和 计算 能 力 调度 器 CapacityScheduler， 这 两 种 调度 器 支持 多 队列 、 多 用 户 以 及 作业 优先 级 策 
略 ， 作 业 优 先 级 有 五 种 ， 从 高 到 低 依 次 为 : VERY_HIGH、HIGH、NORMAL、LOW 和 VERY_LOW。 使 用 方法 如 下 : 


HADOOP HOME =/home/nuoline/hadoop-client 
# 启 动作 业 提 交 的 streaming 命 令 
$HADOOP HOME/bin/hadoop jar \ 
$HADOOP HOME/contrib/streaming/hadoop-streaming-1.0.4.jar \ 
-D mapred.job.queue.name=queuel \\ 
-D mapred.job.priority=NORMAL \\ 
-numReduceTasks=2 \ 
-input /data/nuoline/wc input \ 
-output /data/nuoline/wc output \ 
-mapper cat \ 
—reducer wc 


在 上 述 作业 提交 中 通过 参数 mapred.job.queue.name 来 指定 要 提交 到 哪个 队列 中 ， 通 过 参数 mapred.job.priority 来 设置 作业 的 优先 级 ， 这 里 设置 为 NORMAL。 优 先 级 高 的 作业 会 被 优先 调度 执行 。 在 
一 般 情 况 下 ， 如 果 优 先 级 相同 则 相同 优先 级 作业 会 按照 FIFO 原 则 被 调度 执行 ， 当 然 这 些 最 终 取决 于 调度 器 的 调度 策略 。 如 果 用 户 没 有 指定 要 提交 的 队列 名 ， 那 么 系统 会 自动 提交 到 集群 默认 的 default 队 列 ， 
当然 Hadoop 系 统管 理 员 也 可 以 配置 默认 应 该 提交 到 什么 队列 或 配置 哪些 用 户 组 默认 提交 到 相应 的 队列 。 


用 户 在 指定 提交 队列 时 并 不 是 以 Hadoop 客 户 端 上 的 Linux 系 统 用 户 的 身份 ， 而 是 需要 Hadoop 授 权 的 Hadoop 用 户 。 在 默认 情况 下 如 果 登 录 Linux 的 用 户 就 是 创建 Hadoop 的 超级 用 户 ， 那 么 在 提交 作业 
时 默认 就 是 使 用 Hadoop 的 超级 用 户 提 交 作业 的 。 这 是 比较 危险 的 行为 ， 因 为 Hadoop 超 级 用 户 拥有 Hadoop 集 群 系统 的 所 有 权限 ， 相 当 于 使 用 Linux 的 root 用 户 在 操作 并 执行 程序 。 因 此 在 实际 生产 环境 下 
会 对 集群 进行 权限 管理 ， 用 户 在 提交 作业 到 集群 时 需要 指定 一 个 授权 的 Hadoop 用 户 来 提交 作业 ， 可 以 使 用 参数 hadoop.job.ugi 来 指定 ， 代 码 如 下 : 


-D hadoop.Jjob.ugi="username,password" 


username 就 是 Hadoop 授 权 的 Hadoop 用 户 名 ; password 是 这 个 用 户 名 的 授权 密码 ， 在 提交 作业 时 Hadoop 会 对 其 进行 验证 ，Hadoop 用 户 名 username 和 密码 password 之 间 通 过 逗号 分 隔 。 如 果 用 户 
没有 指定 hadoop.job.ugi， 那 么 在 提交 时 会 自动 加 载 在 Hadoop 客 户 端 的 conf 目 录 下 配置 文件 中 指定 的 hadoop.job.ugi 为 默认 参数 。 


注意 用 户 是 否 具有 提交 到 指定 队列 的 权限 是 和 集群 调度 器 的 AcL 权 限 控制 有 关 的 ， 如 果 用 户 在 提交 作业 时 指定 hadqoop .job.ugi 授 权 用 户 没 有 参数 mapred.job.queue .name 指 定 队 列 的 提交 权限 ， 那 么 作业 就 会 提交 失败 。 


11.14 “分 上 友 文 件 和 压缩 包 


在 streaming 中 用 户 指 定 的 Mapper 和 Reducer 是 用 第 三 方 语言 编写 的 可 执行 文件 ， 往 往 还 需要 加 载 一 些 词典 文件 和 数据 ， 而 这 些 可 执行 文件 及 词典 数据 并 不 存在 于 Hadoop 集 群 中 的 所 有 计算 节点 之 
上 ， 因 此 在 Hadoop 运 行 作业 之 前 就 需要 将 这 些 文件 分 发 到 集群 中 的 计算 节点 ， 这 样 用 户 作 业 才 会 成 功 运行 。 需 要 分 发 的 情况 大 致 分 为 以 下 三 种 。 


第 一 种 : 用 户 编写 的 Mapper 和 Reducer 可 执行 程序 文件 。 由 于 Hadoop 集 群 中 的 计算 节点 都 需要 调用 用 户 指定 的 Mapper 和 Reducer 可 执行 文件 来 启动 独立 的 处 理 进程 ， 因 此 这 些 可 执行 文件 需要 在 每 
个 计算 节点 存在 ， 这 就 必须 将 用 户 指定 的 可 执行 程序 文件 分 发 到 集群 中 的 所 有 计算 节点 。 


第 二 种 : 在 用 户 的 Mapper 或 者 Reducer 中 需要 加 载 用 到 的 第 三 方 数据 词典 文件 。 最 典型 的 就 是 如 果 用 户 在 Mapper 中 需要 进行 分 词 ， 就 需要 加 载 相应 的 词典 文件 ， 也 就 是 需要 将 词典 文件 分 发 到 集群 中 
才 可 以 在 程序 中 直接 使 用 。 


第 三 种 : 用 户 的 编译 执行 环境 。 在 streaming 中 用 户 可 以 使 用 任何 编程 语言 来 编写 Mapper 和 Reducer， 但 是 集群 中 不 可 能 安装 部 署 所 有 的 计算 机 编译 执行 环境 ， 这 就 需要 将 用 户 的 编译 执行 环境 也 分 发 
到 Hadoop 集 群 中 。 典 型 的 情况 就 是 用 户 的 Mapper 和 Reducer 可 执行 程序 都 是 使 用 Python 编写 的 脚本 执行 程序 ， 而 Hadoop 集 群 中 的 计算 节点 中 并 没有 安装 Python 环境 ， 这 时 就 需要 在 提交 作业 时 将 
Python 执行 环境 分 发 到 集群 中 的 所 有 计算 节 


针对 上 述 三 种 情况 Hadoop Streaming 框 架 提供 了 自动 分 友 机 制 ， 用 户 只 需要 在 提交 作业 时 通过 使 用 相应 的 参数 进行 设置 即 可 实现 自动 分 发 ， 这 些 参 数 包括 : -file，-cacheFile 和 -cacheArchive。 下 面 
分 别 对 这 些 参数 的 使 用 方法 进行 介绍 。 


1.-file 的 使 用 


参数 -file 用 于 分 发 位 于 本 地 没有 目录 结构 的 文件 ， 最 典型 的 应 用 场景 就 是 分 发 用 户 编写 的 Mapper 和 Reducer 可 执行 程序 及 小 词典 文件 。 例 如 用 户 的 Mapper 程 序 路 径 为 /home/nuoline/my_map.sh; 
Reducer 程 序 路 径 为 /home/nuoline/my_reduce.sh; 词典 文件 路 径 为 /home/nuoline/dict.txt， 则 使 用 -file 参 数 进 行 分 发 的 代码 如 下 : 


HADOOP HOME =/home/nuoline/hadoop-client 
# 启 动作 业 提 交 的 streaming 命 令 
SHADOOP HOME/bin/hadoop jar \ 
$HADOOP HOME/contrib/streaming/hadoop-streaming-1.0.4.jar \ 
-numReduceTasks=2 \ 
-input /data/nuoline/test input \ 
-output /data/nuoline/test output \ 
-mapper my map.sh \ 
-reducer my reduce.sh \ 
-file /home/nuoline/my map.sh \ 
-file /home/nuoline/my reduce.sh \ 
-file /home/nuoline/dict.txt 


通过 -file 参 数 Hadoop 会 自动 将 用 户 的 my_map.sh、my _reduce.sh 和 dict.txt 发 到 集群 中 的 计算 节点 ， 在 Streaming 程 序 提交 命令 中 可 以 直接 通过 文件 名 来 指定 Mapper 和 Reducer， 如 果 用 户 的 可 执行 
程序 带 有 命令 行 参数 需要 加 上 双 3 引 号 ， 代 码 如 下 : 


-mapper "my map.sh $1 $2" 


在 提交 作业 后 用 户 分 发 的 可 执行 程序 及 词典 文件 会 被 打包 在 一 起 并 位 于 streaming 程 序 的 工作 目录 ， 因 此 在 用 户 的 Mapper 可 执行 程序 中 可 以 直接 通过 词典 文件 名 “dict.txt” 直 接 使 用 词典 文件 。 如 果 
不 使 用 -file 参 数 来 分 发 用 户 的 可 执行 程序 文件 及 词典 文件 ，streaming 会 因 文 件 不 存在 而 导致 作业 运行 失败 。 


全 注意 用 户 分 发 的 Mapper 和 Reducer 程 序 必须 要 有 可 执行 权限 才能 正常 运行 ， 如 果 没 有 ， 可 以 在 分 发 之 前 通过 chmod+x filename 来 设置 可 执行 权限 。 


2.-cacheFile 的 使 用 


如 果 用 户 要 分 发 的 文件 (没有 目录 结构 ) 相对 比较 大 ， 可 以 先 将 文件 put 到 集群 上 ， 然 后 使 用 -cacheFile 参 数 来 分 发 ， 这 样 在 用 户 的 Mapper 和 Reducer 可 执行 程序 中 就 可 以 将 集群 HDFS 上 的 文件 当 作 
本 地 文件 一 样 进行 处 理 。 例 如 ， 有 一 个 本 地 文件 /home/nuoline/bigdict.dat， 可 以 将 其 先 put 到 集群 的 /data/app/nuoline 目 录 ， 代 码 如 下 : 


$HADOOP HOME/bin/hadoop -put /home/nuoline/bigdict.dat \ 
/data/app/nuoline 


然后 就 可 以 使 用 -cacheFile 来 分 发 ， 代 码 如 下 : 


HADOOP HOME =/home/nuoline/hadoop-client 
# 启 动作 业 提 交 的 streaming 命 令 


SHADOOP HOME/bin/hadoop jar \ 
$HADOOP HOME/contrib/streaming/hadoop-streaming-1.0.4.jar \ 
-numReduceTasks=2 \ 
-input /data/nuoline/test input \ 
-output /data/nuoline/test output \ 
-mapper my map.sh -reducer my reduce.sh \ 
-file /home/nuoline/my map.sh \ 
-file /home/nuoline/my reduce.sh \ 
-cacheFile /data/app/nuoline/bigdict.dat#dictlink 


通过 -cacheFile 参 数 就 可 以 将 HDFS 上 的 文件 分 友 到 集群 中 的 计算 节点 ， 并 在 streaming 工 作 的 当前 目录 下 创建 一 个 链接 dictlink， 用 户 在 自己 的 my_ map.sh 和 my_reduce.sh 程 序 中 就 可 以 通过 dictlink 
像 访 问 本 地 文件 一 样 直 接 访问 HDFS 上 的 /data/app/nuoline/bigdict.dat 文 件 。 


全 注意 -CacheFile 参 数 后 面 的 HDFS 路 径 在 标准 情况 下 应 该 是 完整 的 URI， 模 式 为 hdfs://namenogde:port/data/app/nuoline/bigdict.gdat#qdictlink。 一 般 如 果 数 据 位 于 当前 Hadoop 客 户 端 配置 的 集群 HDFS 上 ， 则 可 以 
省 略 URL 的 Scheme 前 级 “hdfs://namenode:port”， 同 时 用 户 不 可 以 向 分 发 的 文件 写 入 。 


3.-cacheArchive 的 使 用 


-file 和 -cacheFile 两 个 参数 应 用 于 没有 目录 结构 的 文件 ， 对 于 有 目录 结构 的 文件 应 该 如 何 分 发 呢 ? 在 Hadoop 中 可 以 通过 -cacheArchive 人 参数 来 分 龙 。 例 如 ， 要 分 发 一 个 有 目录 结构 的 词典 ， 词 典 
wordseg 目 录 结 构 如 下 : 


wordseg 

-wordseg/data 
-wordseg/data/termtag.data 
-wordseg/data/sname.data 
--wordseg/data/phrasesub.data 
-wordseg/list 
——wordseg/list/stopword.1ist 
--wordseg/list/hotword.1ist 


首先 需要 将 位 于 本 地 的 wordseg 进 行 压缩 打包 。Hadoop 支 持 zip、jar、tar.gz 三 种 压缩 格式 。 由 于 Java 在 解压 zip 格 式 的 文件 时 会 丢失 文件 权限 信息 ， 同 时 中 文 文件 名 支持 得 不 好 ， 因 此 建议 使 用 tar.gz 


格式 进行 压缩 打包 ， 然 后 上 传 到 集群 HDFS 上 ， 命 令 如 下 : 


录 


# 进 入 wordseg 目 
cd wordseg 

# 压 缩 打 包 

tar -zcvf wordseg.tar.gz 
# 上 传 到 HDFS 

$HADOOP HOME/bin/hadoop 


a 


fs -Put wordseg.tar.gz /data/app/nuoline 


然后 就 可 以 运用 参数 -cacheArchive 来 分 发 wordseg。Streaming 作 业 提交 代码 如 下 : 


HADOOP HOME =/home/nuoline/hadoop-client 
# 启 动作 业 提 交 的 streaming 命 令 
SHADOOP HOME/bin/hadoop jar \ 
$HADOOP HOME/contrib/streaming/hadoop-st 
-numReduceTasks=2 \ 
-input /data/test input -output /data/test output \ 
-mapper my map.sh -reducer my reduce.sh \ 
-file /home/nuoline/my map.sh \ 
-file /home/nuoline/my reduce.sh \ 
-cacheArchive /data/app/nuoline/wordseg.tar.gz#wordseg 
Streaming 作 业 在 提交 时 便 会 通过 参数 


reaming-1.0.4.jar \ 


Streaming 作 业 在 提交 时 便 会 通过 参数 -cacheArchive 选 项 将 wordseg.tar.gz 分 发 到 集群 中 的 计算 


节点 并 解压 到 wordseg 目 录 下 ， 然 后 在 Streaming 工 作 的 当前 目录 中 创建 到 wordseg 目 录 的 链接 ， 这 样 


用 户 就 可 以 在 自己 的 Mapper 和 Reducer 程 序 中 像 访 问 本 地 文件 一 样 来 访问 位 于 集群 HDFS 上 wordseg 中 的 文件 。 例 如 ， 在 用 户 的 Mapper 程 序 my_ map.sh 中 可 以 直接 通 


过 “wordsegyVlist/stopword.list” 来 加 载 wordseg.tar.gz 中 的 停 用 词 列 表 。 


@@ 注 意 用 户 需 要 进入 wordseg 目 录 进 行 压 缩 打包 ， 这 样 才 可 以 通过 “wordseg/1list/stopword.1list” 来 访问 数据 。 如 果 在 wordseg 外 部 进行 压缩 打包 ， 则 需要 


`#“ 后 面 的 目录 下 。 


因为 Hadoop 会 将 压缩 打包 后 的 文件 解压 到 符号 


11.1.5 ”压缩 参数 的 使 用 


通过 对 前 面 内 容 的 讲解 已 经 了 解 ，Hadoop 中 Map 的 输出 是 写 入 本 地 的 ， 然 后 通过 shuffle 阶 段 将 Map 的 输出 数据 副本 (copy) 传输 到 Redcue 端 ， 这 


要 通过 “wordseg/wordseg/1list/stopword.1list“ 来 访问 ， 


这 是 


个 过 程 大 概 需 要 占用 整个 MapReduce 处 理 时 间 的 


1/3。 因 此 ， 如 果 Map 的 输出 数据 量 较 大 ， 就 会 占用 大 量 的 传输 带宽 和 人 存储 消耗 。Hadoop 针 对 这 种 情况 设计 了 数据 压缩 控制 ， 用 户 可 以 通过 参数 选项 来 控制 是 否 对 Map 的 输出 进行 压缩 ， 同 时 也 可 以 控制 


是 否 对 Redcue 的 输出 进行 压缩 。 对 Map 的 输出 进行 压缩 可 以 大 大 减少 shuffle 阶 段 的 网 络 传输 量 


HADOOP HOME =/home/nuoline/hadoop-client 
启动 作业 提交 的 streaming 命 令 
SHADOOP HOME/bin/hadoop jar \ 
$HADOOP HOME/contrib/streaming/hadoop-st 
-D mapred.compress .map .output=true \ 
-D mapred.map.output.compression.codec=\ 
org.apache.hadoop.io.compress.GzipCodec \\ 
-D mapred.output.compress=true \ 
-D mapred.output.compression.codec=\ 
org.apache.hadoop.io.compress.BZip2Codec \ 
-numReduceTasks=2 \ 
-mapper my map.sh -reducer my reduce.sh \ 
-file /home/nuoline/my map.sh \ 
-file /home/nuoline/my reduce.sh \ 
-input /data/test input -output /data/test output 


十 


reaming-1.0.4.jar \ 


在 上 述 的 Streaming 作 业 提 交 命 令 中 ， 
mapred.map.output.compression.codec 来 指定 压 


压缩 时 使 用 的 压缩 类 
数 mapred.output.compression.codec 来 指定 压缩 时 使 用 的 压缩 类 ， 这 


和 压缩 相关 的 参数 选项 说 明 ， 如 表 11-1 所 示 。 


表 11-1 


参数 名 称 
mapred.output.compress 
mapred.output.compression.type 
mapred.output.compression.codec 
mapred.compress.map.output 


mapred.map.output.compression.codec 


在 表 11-1 中 ， 参 数 mapred.output.compression.type 用 于 控制 作业 输出 的 压缩 类 型 ， 


缩 比 ; 参数 mapred.output.compression.codec 用 于 指定 Reduce 输 出 时 调用 的 压缩 编码 类 ; 


主要 支持 的 压缩 类 型 说 明 ， 如 表 11-2 所 示 。 


作业 输出 是 否 
作业 输出 压 乡 
作业 输出 奈 : 
Map 的 输 ; 
Map 的 输出 压缩 时 使 用 的 压缩 编码 类 


;对 Reduce 的 输出 进行 压缩 可 以 节省 HDFS 的 存储 空间 。 具 体 代码 如 下 : 


参数 mapred.compress.map.output 指 定 Map 的 输出 是 否 压缩 ， 值 为 true 表 示 输 出 使 用 压缩 ， 相 应 的 压缩 格式 通过 参数 
类 ， 这 里 采用 Gzip 压缩 ; 
里 Reduce 的 输出 使 用 BZip2 压 缩 。 


参数 mapred.output.compress 指 定 Reduce 的 输出 是 否 压 缩 ， 值 为 true 表 示 使 用 压缩 ， 相 应 的 压缩 格式 通过 参 


压缩 参数 选项 说 明 


= 


意义 描述 


到 压缩 E 缩 ， 取 值 : true 或 false 
NONE 、RECORD 或 BLOCK ， 
和 时 使 用 的 压缩 编码 类 


i 是否 压缩 ， 取 值 : 


即 Reduce 输出 是 否 ) 


型 |， 驮 认为 RECORD 


true 或 false 


和 


默认 为 RECORD， 表 示 压 缩 单独 记录 ， 若 值 为 BLOCK， 则 可 以 压缩 一 组 记录 ，BLOCK 相 比 于 RECORD 有 更 大 的 压 
参数 mapred.map.output.compression.codec 用 于 指定 Map 输 出 时 调用 的 压缩 编码 类 。 目 前 版 本 的 Hadoop 


表 11-2 Hadoop 支 持 的 压缩 类 型 说 明 


在 表 11-2 中 ， 只 有 bzip2 支 持 split， 所 谓 支持 split 是 指 文 件 被 压缩 后 作为 MapRedcue 的 输入 时 是 否 会 被 切 分 。 例 如 ， 对 于 gzip 压 缩 格式 ， 有 一 个 1GB 的 gzip 文 件 ，HDFS 的 块 大 小 为 256MB， 如 果 输 入 
数据 是 可 以 切 分 的 ， 那 么 应 该 有 4 个 Map 进 行 处 理 ， 每 个 Map 对 应 一 个 输入 分 块 ， 但 是 如 果 输 入 数据 是 不 可 切 分 的 ， 对 于 1GB 的 gzip 文 件 只 能 对 应 一 个 Map 来 处 理 。LZO 默 认 是 不 支持 split 的 ， 但 是 如 果 对 
LZO 压 缩 的 文件 建立 了 索引 ， 那 么 LZO 是 支持 split 切 分 的 。 表 11-2 中 的 压缩 类 型 所 对 应 的 压缩 类 ， 如 表 11-3 所 示 。 


表 11-3 Hadoop 支 持 的 压缩 类 


压缩 格式 Hadoop 压缩 类 
DEFLATE org.apache.hadoop.10.compress.DefaultCodec 
gzZ1p org.apache.hadoop.1i0.compress.GzipCodec 
bzlp2 org.apache.hadoop.10.compress.BZ1p2Codec 
LZO com.hadoop.compression.lzo.LzopCodec 
Snappy org.apache.hadoop.10.compress.SnappyCodec 


在 Hadoop 中 ，Map 和 Reduce 都 可 以 通过 参数 选项 来 控制 是 否 使 用 压缩 、 压 缩 类 型 和 压缩 编码 类 ， 这 些 对 于 用 户 来 讲 都 是 透明 的 。 如 果 设 置 了 Map 的 输出 使 用 压缩 ， 那 么 在 shuffle 过 程 完 成 之 后 就 会 
调用 相应 的 解压 缩 对 数据 进行 解压 ， 然 后 将 数据 排序 并 作为 Reduce 的 输入 。 在 设置 Reduce 的 输出 使 用 压缩 后 ， 如 果 输 入 数据 作为 下 一 轮 MapReduce 作 业 的 输入 ， 那 么 Hadoop 也 会 自动 调用 相应 的 解压 类 
来 解压 数据 ， 然 后 作为 Map 的 输入 来 处 理 。 在 实际 的 作业 中 ， 可 以 根据 需求 并 结合 各 种 压缩 /解压 缩 算法 的 速度 及 是 否 split 等 因素 选择 合适 的 压缩 类 型 。 


11.1.6 ”本 地 作业 的 调试 


Hadoop Streaming 框 架 最 大 的 一 个 优势 就 是 便于 本 地 调试 程序 ， 在 使 用 Java API 编 写 MapReduce 程 序 时 无 法 直接 在 本 地 调试 ， 而 Streaming 接 口 由 于 使 用 标准 输入 和 标准 输出 作为 中 介 进 行 数据 传 
输 ， 因 此 只 需要 使 用 管道 来 模拟 MapReduce 流 程 就 可 以 直接 在 本 地 调试 ， 本 地 调试 流程 如 下 : 


[3 


cat input | mymapper | sort | myreducer > output 


在 调试 时 一 定 不 能 志 了 sort， 因 为 Mapper 的 输出 是 排序 的 ， 用 户 在 编写 Reducer 时 也 需要 注意 一 下 ， 因 为 Reducer 的 输入 也 是 排序 的 ， 在 具体 编程 时 也 需要 利用 这 一 点 。 


在 调试 时 如 果 发 现 sort 的 结果 和 和 Hadoop 有 所 不 同 ， 那 么 建议 在 sort 时 加 上 LC_ALL=C， 如 下 所 示 : 


cat input | mymapper | LC ALL=C sort | myreducer > output 


对 于 本 地 调试 的 输入 数据 量 较 大 时 ， 需 要 使 用 -T 参 数 来 指定 sort 的 临时 目录 以 正常 执行 排序 阶段 。 


11.2 Streaming 高 级 应 用 
11.1 节 的 内 容 主 要 讲解 了 Streaming 的 基础 编程 方法 ， 包 括 一 些 常 用 参数 使 用 ， 下 面 将 继续 深入 讲解 Streaming 的 高 级 使 用 方法 。 


11.2.1 参数 与 环境 变量 传递 


在 Java 的 MapReduce 接 口中 可 以 很 方便 地 直接 使 用 Hadoop 提 供 的 API| 类 向 用 户 的 Mapper 类 和 Reducer 类 传递 参数 及 访问 作业 的 配置 信息 ， 而 在 Streaming 中 是 不 能 直接 使 用 Java 的 API 接 口 的 ， 不 过 
可 以 通过 设置 环境 变量 的 方式 进行 参数 和 环境 变量 传递 。 


例如 ， 用 户 需要 在 自己 的 Mapper 可 执行 程序 中 传递 两 个 控制 参数 ， 有 两 种 方法 : 第 一 种 就 是 直接 在 Mapper 可 执行 程序 的 命令 行 中 指定 ; 第 二 种 就 是 使 用 -cmdenv 参 数 选项 设置 环境 变量 的 方式 。 第 
一 种 方法 的 代码 如 下 : 


HADOOP HOME =/home/nuoline/hadoop-client 
# 启 动作 业 提 交 的 streaming 命 令 
SHADOOP HOME/bin/hadoop jar \ 
SHADOOP HOME/contrib/streaming/hadoop-streaming-1.0.4.jar \ 
-numReduceTasks=2 \ 
-input /data/test input -output /data/test output \ 
-mapper "my map.sh $argv] $argv2"\ 
-reducer my reduce.sh \ 
-file /home/nuoline/my map.sh \ 
-file /home/nuoline/my reduce.sh 


在 上 述 代 码 中 直接 通过 my_map.sh 的 命令 参数 传递 给 用 户 的 Mapper 可 执行 程序 ， 在 用 户 的 my_map.sh 中 就 可 以 直接 通过 命令 行 参数 $1 来 接收 参数 argv1， 通 过 $2 来 接收 参数 argv2。 


第 二 种 就 是 通过 -cmdenv 参 数 选项 来 传递 ， 代 码 如 下 : 


-input /data/test _ input -output /data/test output \ 


-cmdenv ARGV1=argv1l \ 
-cmdenv ARGV2=argv2 \ 
-mapper my map.sh\ 
-reducer my reduce.sh \ 


在 设置 参数 选项 -cmdenv 之 后 就 可 以 在 用 户 的 Mapper 程 序 my_map.sh 中 通过 $ARGV1 来 接收 参数 argv1; 通过 $ARGV2 来 接收 参数 argv2。 
另 一 个 问题 就 是 如 何在 Streaming 中 获取 与 集群 系统 相关 的 环境 变量 和 作业 配置 信息 呢 ? streaming 框 架 中 是 可 以 通过 直接 引用 环境 变量 名 来 获取 的 ， 常 用 的 环境 变量 ， 如 表 11-4 所 示 。 


表 11-4 Stteaming 中 常用 的 环境 变量 


环境 变量 名 意义 摘 述 
HADOOP HOME 用 于 获取 平台 上 配置 的 Hadoop 路 径 
LD LIBRARY PATH 计算 节点 上 加 载 库 文 件 的 路 径 列 表 
PWD Streaming 作业 当前 工作 目录 
dfs_ block size 当前 HDFS 设置 的 块 大 小 \ 
map input file 当前 Mapper 处 理 的 输入 文件 路 径 

(组 ) 
环境 变量 意义 描述 
mapred job id 当前 作业 ID 
mapred job name 当前 作业 名 
mapred tip id 当前 任务 的 第 几 次 重 试 
mapred task id 当前 任务 
mapred task 1s map 当前 任务 是 否 为 Map 
mapred output dir 作业 输出 路 径 
mapred map tasks 计算 的 Map 任务 
mapred reduce tasks 计算 的 Reduce 村 本 务 数 


在 表 11-4 中 ， 如 果 用 户 想 要 在 自己 的 Mapper 可 执行 脚本 程序 中 使 用 这 些 变 量 ， 直 接 引 用 即 可 。 以 HADOOP_HOME 为 例 ， 用 户 可 以 在 自己 的 Mapper 脚 本 程序 my_map.sh 中 通过 $HADOOP_HOME} 
来 直接 引用 集群 环境 中 的 Hadoop 根 目录 环境 变量 。 其 余 的 常用 环境 变量 的 引用 方法 与 此 类 似 。 


11.2.2” 自 定义 分 隔 符 


在 Hadoop streaming 框 架 中 用 户 的 Mapper 和 Reducer 可 执行 程序 通过 标准 输入 /输出 和 Hadoop 框 架 进 行 通信 ， 这 个 交互 协议 默认 为 : 


<key>\t<value>\n 


也 就 是 默认 的 键 值 对 <key，value> 之 间 的 分 隔 符 是 Tab 键 “人 t” ， 上 有 具体 为 一 行 记录 中 第 一 个 Tab 键 ^t” 之 前 的 部 分 为 key， 之 后 的 部 分 为 value。Streaming 框 架 会 按照 这 样 的 键 值 对 分 隔 来 解析 Map 
的 输出 ， 按 照 解析 的 key 进 行 partitioner 映 射 ， 并 且 以 此 key 进 行 排序 ， 用 户 的 Reducer 可 执行 程序 对 来 自 标准 输入 的 数据 也 根据 Tab 键 “^t” 进 行 切 分 <key，value> 来 进行 处 理 。 


然而 在 使 用 中 ， 特 别 是 在 实际 的 生产 环境 中 用 户 往往 对 键 值 对 <key，value> 之 间 分 隔 符 有 更 加 灵活 的 控制 需求 。 例 如 ， 使 用 自 定义 的 Map 处 理 的 键 值 对 分 隔 符 ， 自 定义 的 Reduce 处 理 中 的 键 值 对 分 隔 
符 。 针 对 这 样 的 需求 ，Streaming 框 架 对 用 户 也 提供 了 相应 的 控制 参数 ， 用 户 可 以 设置 这 些 控制 参数 来 达到 自 定 义 分 隔 符 的 目的 。 相 关 的 控制 参数 说 明 ， 如 表 11-5 所 示 。 


表 11-5 ”Streaming 自 定义 分 隔 符 参数 说 明 


参数 名 称 意义 描述 
stream.map.input.field.separator 指定 Map 输入 <key,value> 之 间 分 隔 符 ， 默 认为 “\t” 
stream.map.output.field.separator 指定 Map 输出 中 <key,value> 之 间 分 陋 待 ， 默 认为 “\t” 
stream.num.map.output.key.fields 指定 Map 输出 分 隔 <key,value> 的 位 置 ， 默 认为 1 
stream.reduce.input.field.separator 指定 Reduce 输入 <keyvalue> 之 间 分 陋 待 ， 默 认为 “\t” 
stream.reduce.output.field.separator 指定 Reduce 输出 <keyvalue> 之 间 分 隔 待 ， 默 认为 “\t” 


stream.num.reduce.output.key.fields 指定 Reduce 输出 分 隔 <key.value> 的 位 置 ， 默 认为 1 


从 表 11-5 中 可 以 看 到 用 于 控制 Streaming 自 定义 分 隔 符 的 参数 及 其 意义 ， 其 中 主要 分 为 两 类 : 第 一 类 就 是 Map 输 入 /输出 分 隔 符 参数 ; 第 二 类 就 是 Reduce 输 入 /输出 分 隅 符 参数 。 为 了 更 清晰 地 看 到 这 些 
参数 在 Hadoop Streaming 中 的 作用 ， 其 分 隔 符 参数 示意 图 ， 如 图 11-1 所 示 。 
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图 11-1 Streaming 分 隔 符 参数 示意 图 


从 图 11-1 中 可 以 非常 明确 地 看 出 ， 参 数 stream.map.input.field.separator 用 于 指定 Map 输 入 记录 <key，value> 之 间 的 分 隔 符 。 在 Streaming 中 用 户 的 Mapper 程 序 的 输入 来 自 Hadoop 的 输出 ， 而 
Hadoop 框 架 对 输入 数据 根据 InputFormat 指 定格 式 解析 每 条 记录 为 <key，value> 并 写 入 标准 输入 流 ， 并 且 key 和 value 之 间 的 分 隔 符 就 是 通过 stream.map.input.field.separator 指 定 的 ， 默 认 也 是 Tab 
键 人 \t”。 由 于 Streaming 默 认 InputFormat 是 TextlnputFormat 格 式 ， 默 认 的 key 是 行 偏 移 ，value 为 行 记录 的 内 容 ， 因 此 在 写 入 到 标准 输入 流 时 忽略 了 key， 只 输出 value， 也 就 是 记录 本 身 。 因 此 一 般 用 
户 的 Mapper 程 序 从 标准 输入 读 取 的 记录 是 直接 可 用 的 value， 而 对 于 非 TextInputFormat 格 式 用 户 就 需要 根据 stream.map.input.field.separator 指 定 的 分 隔 符 进行 解析 <key，value> 键 值 对 。 


参数 stream.map.output.field.separator 用 于 控制 Map 输 出 中 <key，value> 键 值 对 之 间 的 分 隔 符 ， 默 认为 Tab 键 “\t”， 参 数 stream.num.map.output.key.fields 用 于 指定 Map 输 出 中 具体 key 和 和 
value 的 位 置 ， 默 认为 1。 也 就 是 使 用 参数 stream.map.output.field.separator 指 定 的 分 隔 符 分 隔 Map 输 出 ， 并 指定 参数 stream.num.map.output.key.fields 位 置 之 前 为 key， 之 后 为 value。 


参数 stream.reduce.input.field.separator 用 于 控制 用 户 Reduce 程 序 输 入 的 分 隔 符 ， 参 数 stream.reduce.output.field.separator 和 stream.num.reduce.output.key.fields 用 于 控制 Reduce 输 出 的 
<key，value> 键 值 对 之 间 的 分 隔 符 和 位 置 ， 这 三 个 参数 的 意义 和 Map 的 相应 参数 类 似 。 


下 面 通过 一 个 示例 来 说 明 具 体 如 何 使 用 自 定义 分 隔 符 ,一 个 Streaming 提 交 作业 参数 设置 如 下 : 


$HADOOP HOME/contrib/streaming/hadoop-streaming-1.0.4.jar \ 
-D stream.map.output.field.separator=":" \ 
-D stream.num.map.output.key.fields=2 \ 
-D stream.reduce.input.field.separator="#" 
-D stream.reduce.output.field.separator="\001" 
-numReduceTasks=2 \ 
-mapper “python my map.sh" -reducer "Python my reduce.sh" \ 
-file /home/nuoline/my map.py \ 
-file /home/nuoline/my reduce.py \ 


-input /data/test _ input -output /data/test _ output 


在 上 述 示 例 中 设置 用 户 Mapper 输 出 中 <key，value> 键 值 对 之 间 的 分 隔 符 为 “: ”， 并 且 设 置 第 二 个 分 隔 符 之 前 的 部 分 为 key， 之 后 部 分 为 value。Sstreaming 框 架 从 标准 输出 收集 到 用 户 的 Mapper 输 
出 后 就 会 按照 这 样 的 设 定 解析 <key，value> ， 并 按照 指定 key 进 行 Partitioner 分 桶 及 排序 。 相 应 的 用 户 在 编写 Mapper 程 序 时 就 需要 按照 上 述 参 数 的 设 定 进行 输出 ， 用 户 Mapper 程 序 my_map.py 需 要 输出 
以 “: ”来 分 隔 的 key 和 value， 同 时 第 二 个 分 隔 符 “: ”之 前 部 分 为 key， 之 后 为 value， 代 码 如 下 : 


def emit (key pl,key p2,value): 
sys.stdout.write('%s:%s:%$s\n' % (key pl, key p2,value)) 


例子 中 的 Reduce 输 入 分 隔 符 被 设置 为 “#”， 那 么 Hadoop 框 架 在 通过 Shuffle 和 Sort 处 理 之 后 写 入 到 标准 输入 流 时 就 会 以 “#” 来 分 隔 <key，value> 键 值 对 ， 用 户 的 Reducer 程 序 在 从 标准 输入 接收 到 
每 一 条 记录 时 就 需要 按照 “#” 来 解析 <key，value> 键 值 对 ， 处 理 完 之 后 在 输出 到 标准 输出 时 需要 以 参数 stream.reduce.output.field.separator 指 定 的 “001” 分 隔 符 来 输出 <key，value> 用 户 的 
Reducer 程 序 ，my_reduce.py 中 的 相关 代码 如 下 。 


def emit (key,value): 


# 输 出 时 要 以 指定 的 "\001" 分 隔 key 和 value 
Sys.stdout.write('%$s\001l%s\n',%$ (key,value)) 


for line in sys.stdio: 
# 解 析 时 要 以 指定 的 "#" 来 切 分 
Cols = line.strip() .split("#") 
Key = Cols[0] 

Value = Cols[1] 


在 实际 生产 环境 下 往往 只 需要 自 定义 Mapper 的 输出 分 隔 符 及 位 置 参 数 即 可 满足 大 部 分 的 处 理 需 求 ， 而 Reducer 的 输入 /输出 分 隔 符 及 位 置 采用 默认 的 Tab 键 人 ^t” 就 可 以 了 。 


11.2.3” 自 定义 Partitioner 


首先 需要 明确 Partitioner 的 作用 ， 在 Hadoop 中 经 Map 处 理 后 每 一 条 记录 由 哪 一 个 Reduce 处 理 就 是 Partitioner 要 做 的 事情 ， 正 是 因为 Partitioner 的 功能 才 使 得 一 个 Reducer 可 以 归纳 所 有 相同 key 的 
value 记 录 。Partitioner 的 功能 示意 图 ， 如 图 11-2 所 示 。 
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图 11-2 ”Pattitionet 功 能 示意 图 


从 图 11-2 中 可 以 看 到 ， 在 每 一 个 MapTask 任 务 中 Partitioner 会 将 Map 的 输出 进 分 桶 ， 分 桶 的 数目 就 是 Reduce 的 数目 ， 并 将 每 一 个 分 桶 数据 分 配 到 相应 的 Reduce 端 ， 这 个 分 桶 的 原则 就 是 Partitioner 的 
算法 。Hadoop 系 统 默认 的 Partitioner 实 现 是 HashPartitioner， 其 计算 方法 如 下 。 


reducer= (key.hashCode () &Integer.MAX VALUE) numReduceTasks 


经 上 述 计算 方法 计算 得 到 的 Reducer 就 是 Key 所 对 应 的 记录 被 分 配 的 目的 Reducer。 这 种 算法 实质 上 是 一 种 哈 希 取 模 运算 ， 基 于 这 一 点 我 们 可 以 从 一 种 简单 的 思路 来 理解 MapReduce 模 型 : 一 般 当 遇 到 
无 法 一 次 性 载 入 内 人 存 运行 的 任务 时 首先 想到 的 方法 就 是 对 数据 按照 某 种 哈 希 算法 分 块 ， 然 后 一 个 分 块 一 个 分 块 地 载 入 内 存 进 行 运算 。 而 MapReduce 正 是 这 种 思路 的 典型 升华 ， 它 会 自动 为 用 户 数据 进行 切 


分 及 哈 希 分 桶 ， 其 可 以 保证 一 个 Reduce 会 处 理 所 有 相同 key 的 记录 。 因 此 可 以 认为 Partitioner 是 整个 MapReduce 最 关键 、 最 神秘 的 组 件 ， 一 旦 掌握 了 Partitioner 那 么 用 户 对 Hadoop 就 会 进入 一 个 更 深入 的 
理解 层次 。 


在 一 般 情 况 下 ， 默 认 的 HashPartitioner 可 以 满足 大 部 分 的 应 用 需求 ， 然 而 在 实际 生产 环境 下 往往 也 有 自 定义 Partitioner 的 需求 ， 典 型 的 应 用 需求 就 是 二 次 排序 及 输出 全 排序 等 ， 通 过 自 定义 Partitioner 
就 可 以 很 容易 地 实现 这 些 特定 需求 任务 。 首 先 看 一 下 目前 Hadoop 版 本 已 经 集成 的 Partitioner 的 实现 有 哪些 ， 如 表 11-6 所 示 。 


表 11-6 ”Partitionet 实 现 类 


实现 类 名 意义 描述 
HashPartitioner 默认 Partitioner 类 ，key 的 哈 希 但 对 Reducer 数 日 进行 取 模 运算 
BinaryPartitioner 在 计算 Reducer 分 桶 时 仅 对 键 值 key 的 [rightOffset，leftOffset] 这 个 区 间 取 哈 希 值 
KeyFieldBasedPartitioner 此 于 哈 和 希 取 模 运算 ， 提 供 了 基于 key 内 部 切 分 区 间 用 于 计算 哈 希 值 
TotalOrderPartitioner 根据 key 的 类 型 不 同 采 用 不 同 的 分 棚 算 六 


从 表 11-6 中 可 以 看 到 目前 集成 了 4 个 Partitioner 实 现 类 ，HashpPartitioner 是 默认 的 Partitioner， 其 算法 是 最 简单 的 哈 希 取 模 运算 。 


BinaryPartitioner 继 承 了 Partitioner<BinaryComparable，V> 类 ， 提 供 leftOffset 和 rightOffset 两 个 控制 参数 ， 在 计算 Reducer 分 桶 号 时 仅 对 键 值 K 的 [rightOffset，leftOffset] 这 个 区 间 取 哈 希 。 
BinaryPartitioner 类 中 的 核心 分 桶 国 数 getPartition 的 实现 代码 如 下 : 


public int getPartition (BinaryComparable key, V value, int numPartitions) { 
int length key. getLength (); 
int leftIindex = (leftOffset + length) 要 length; 
int rightIindex = (rightOffset + length) %$ length; 
int hash = WritableComparator.hashBytes (key.getBytes ()， 
leftIndex, rightIindex - leftIindex + 1); 
return (hash & Integer.MAX VALUE) $%$ numPartitions; 


从 分 桶 函数 getPartition 函 数 的 实现 分 析 知 道 ， 决 定 一 条 记录 应 该 分 桶 到 哪 一 个 Reducer 是 由 key 及 两 个 重要 的 参数 leftOffsett 和 rightOffset 确 定 的 ，leftOffset 默 认为 0; rightOffset 默 认为 -1 (也 就 是 
最 后 一 位 ) 。 当 然 用 户 可 以 通过 指定 配置 参数 来 控制 ， 配 置 参数 ， 如 表 11-7 所 示 。 


表 11-7 ”BinaryPartitioner 的 rightOffset 和 leftOffset 配 置 参数 说 明 


配置 参数 意义 描述 
mapred.binary.partitioner. left.offset 控制 参数 leftoffsett 在 键 key 的 左 偏 移 量 ， 默 认为 0 
mapred.binary.partitioner.right.offset 控制 参数 rightOffset 在 键 key 的 石 俯 移 量 ， 默 认 -1 


用 户 通过 Hadoop 通 用 参数 -D key=value 形 式 在 作业 提交 时 指定 即 可 进行 控制 ， 当 然 同时 还 需要 指定 所 使 用 的 BinaryPartitioner 类 . 


KeyFieldBasedPartitioner 会 根据 用 户 指 定 的 key 内 部 的 分 隔 符 对 key 进 行 切 分 ， 并 依据 用 户 指 定 的 key 内 部 用 于 Partitioner 的 位 置 来 进行 哈 希 取 模 计算 Reducer 分 桶 号 。 KeyFieldBasedPartitioner 的 算 
法 和 默认 的 HashPartitioner 基 本 一 样 ， 不 同 之 处 在 于 用 户 可 以 控制 key 内 部 哪些 字段 用 于 哈 希 ， 控 制 参数 ， 如 表 11-8 所 示 。 


表 11-8 KeyFieldBasedPartitione 控 制 参 数 说 明 


参数 名 称 VETTR 
map.output.key.field.separator 指定 Map 中 key 内 部 的 分 隅 符 
num.key.fields.for.partition 上 定 Map 中 Key 用 做 Partitioner 的 分 隔 位 置 


参数 map.output.key.field.separator 用 于 指定 key 内 部 的 分 隔 符 ; 参数 num.key.fields.for.partition 用 于 指定 key 按 照 分 隔 符 切割 后 ， 其 中 用 于 Partitioner 分 桶 的 键 的 位 置 ， 使 用 这 两 个 参数 时 用 户 直接 
在 提交 作业 时 使 用 -D 参 数 选项 来 配置 streaming 作 业 人 参数 就 可 以 ， 当 然 还 需要 指明 自 定义 使 用 的 KeyFieldBasedPartitioner 类 。 


TotalOrderPartitioner 也 继承 了 Partitioner<K，V> 基 类 ， 其 主要 是 用 于 这 样 的 场景 需求 : 一 般 一 个 Reducer 的 输出 内 部 是 有 序 的 ， 但 是 不 同 的 Reducer 输 出 之 间 并 不 保证 全 局 有 序 ， 如 果 要 求全 局 有 
序 ， 那 么 一 个 笨 方 法 就 是 只 设置 一 个 Reducer， 但 是 这 样 就 没有 很 好 地 发 挥 Hadoop 的 并 行 性 ， 更 严重 的 是 在 设置 一 个 Reducer 的 情况 下 MapReduce 系 统 的 处 理 压 力 会 全 部 在 这 一 个 Reducer 端 。 这 种 全 排 
序 的 需求 正 是 TotalOrderPartitioner 所 要 解决 的 问题 。 


解决 全 排序 的 思路 其 实 很 简单 ， 假 设 有 10000 条 记录 ， 用 户 设置 10 个 Reducer 数 目 ， 如 果 在 Partition 阶 段 可 以 保证 key 值 在 区 间 [1，1000] 的 被 分 桶 到 第 一 个 Reducer 中 ，key 值 在 [10001，2000] 的 被 分 
桶 到 第 二 个 Reducer 中 ， 依 此 类 推 ， 由 于 Hadoop 系 统 本 身 可 以 保证 每 个 Reducer 的 输出 是 有 序 的 ， 因 此 整个 结构 就 是 全 排序 的 。TotalOrderPartitioner 在 实现 时 需要 依赖 一 个 分 桶 文件 ， 这 个 文件 要 求 用 
于 partition 分 桶 的 key 从 小 到 大 排列 ， 并 且 数 目 只 比 用 户 设置 的 Reducer 数 目 少 一 个 ， 同 时 根据 Key 的 类 型 创建 二 分 查找 树 ( 非 BinaryComparable 类 型 ) 或 者 Tire Tree (BinaryComparable 类 型 ) ， 然 后 
在 partition 分 桶 可 以 快速 高 效 地 查 到 每 一 条 记录 所 对 应 的 分 桶 Reducer 号 。 因 此 使 用 TotalOrderPartitioner 全 排序 的 关键 就 是 : 对 于 得 到 有 效 的 partition 文 件 ， 因 为 其 关系 到 整个 作业 的 负载 均衡 及 执行 交 
率 ， 所 以 TotalOrderPartitioner 主 要 使 用 采样 的 方法 ， 依 据 采 样 样本 数据 的 分 布 得 到 合适 的 partition 文 件 (默认 文件 名 为 partition.lst) 。 系 统 提供 了 三 种 采样 方法 ， 具 体 如 表 11-9 所 示 。 


表 11-9 TotalOtdetPatrtitionet 采 样 类 说 明 


SplitSampler<K.V> 村 前 n 个 记录 进行 采样 采样 总 数 ， 划 分 数 最 局 
RandomSampler<K.V> 斋 历 了 折 有 数据 ， 随 机 玉 样 玉 样 频率 ， 采 样 总 数 ， 划 分 数 最 低 
IntervalSampler<K,V> 固定 间 隅 采样 玉 样 频率 ， 划 分 数 中 等 


在 使 用 TotalOrderPartitioner 时 首先 要 选择 合适 的 采样 类 得 到 partition 文 件 ， 然 后 设置 TotalOrderPartitioner 为 Partitioner 实 现 类 即 可 。 


上 面 对 三 种 在 Hadoop 内 部 集成 的 Partitioner 实 现 就 介绍 完了 ， 这 里 以 比较 常用 的 KeyFieldBasedPartitioner 为 例 来 说 明 自 定义 Partitioner 在 Hadoop streaming 中 的 使 用 方法 。 假 设 输 入 数据 格式 如 


下 : 

kl:k2:k3:value 

输入 数据 有 四 个 字段 ， 每 个 字段 之 间 的 分 隔 符 为 英文 冒号 “: ”， 前 三 个 字段 用 于 控制 key， 最 后 一 个 字段 value 是 实际 有 用 的 value。 现 在 希望 在 实现 Partitioner 时 按照 k1 和 K2 进 行 分 桶 ， 同 时 又 希望 
在 Mapper 输 出 排序 时 以 K1 和 Kk2 为 主键 ，k3 为 辅 键 进 行 排序 ， 这 种 情况 就 是 一 个 二 次 排序 需求 ， 很 显然 这 样 的 需求 使 用 Hadoop 默 认 的 Partitioner 是 无 法 完成 的 ， 因 此 需要 自 定 义 使 用 Hadoop 内 部 集成 的 


KeyFieldBasedPartitioner 类 来 完成 。 实 现 这 样 的 需求 仅仅 只 需要 在 提交 Streaming 作 业 时 进行 参数 控制 即 可 ， 有 具体 实现 代码 如 下 : 


$HADOOP HOME/contrib/streaming/hadoop-streaming-1.0.4.jar \ 
-D stream.map.output.field.separator=":" \ 
-D stream.num.map.output.key.fields=3 \ 
-D map.output. key.field.separator=":" \ 
-D num.key.fields.for.partition=2 \ 
-Partitioner \ 
org.apache.hadoop.mapred.1ib.KeyFieldBasedPartitioner \ 
-numReduceTasks=10 \ 
-mapper “python my map.sh" -reducer "Python my reduce.sh" \ 
-file /home/nuoline/my map.py \ 
-file /home/nuoline/my reduce.py \ 
-input /data/test input -output /data/test output 


在 上 述 代码 示例 中 ， 参 数 stream.map.output.field.separator= “: ”指定 map 输 出 分 隔 符 为 “: ”; 参数 stream.num.map.output.key.fields=3 指 定 第 三 个 分 隔 符 之 前 为 key， 之 后 为 value， 也 就 
是 指定 key 为 kK1: k2: k3; 参数 map.output.key.field.separator= “: ”用 于 指定 key 内 部 的 分 隔 符 为 “: ”; 参数 num.key.fields.for.partition=2 用 于 指定 第 二 个 key 内 部 分 隔 符 之 前 用 于 partition 哈 希 


分 桶 ， 也 就 是 使 用 k1: k2 对 Partitioner 进 行 哈 希 而 不 是 整个 key; 参数 -partitioner 指 定 了 使 用 KeyFieldBasedPartitioner 作 为 Partitioner 的 实现 类 。 

根据 上 面 的 配置 参数 key 为 k1: k2: k3 可 知 ，key 内 部 被 分 隔 符 分 为 三 个 部 分 : k1、k2 和 Kk3， 由 于 用 于 partition 是 k1: k2， 因 此 相同 k1: k2 的 记录 会 被 分 桶 到 同一 个 Reducer， 但 是 由 于 执行 Mapper 
阶段 之 后 的 Sort 是 以 整个 Key 为 键 进行 排序 的 ， 也 就 是 在 排序 阶段 以 K1: k2: k3 为 键 进行 排序 ， 这 相当 于 以 k1: k2 为 主键 ， 以 k3 为 辅 键 进行 的 排序 ， 也 就 是 实现 了 二 次 排序 功能 。 
11.2.4” 自 定义 计数 器 


在 Hadoop Java APl 中 可 以 通过 其 Java 计 数 器 类 Counters 的 getCounter( 函 数 来 获得 计数 器 并 通过 incrCounter() 函 数 让 计数 器 自 增 。 本 节 通 过 这 两 种 方法 就 可 以 很 容易 地 实现 对 已 有 计数 器 或 者 自 定 
义 计数 器 的 操作 ， 然 而 在 Streaming 作 业 中 如 何 自 定义 计数 器 呢 ?Streaming 框 架 也 有 计数 器 的 操作 接口 ， 其 通过 标准 错误 输出 流 让 用 户 自 定义 的 计数 器 和 Hadoop 框 架 进行 通信 ， 交 互 格式 为 : 


reporter:counter:group, counter, amount 
其 中 ，group 为 计数 器 counter 所 在 组 ; amount 为 每 次 计数 器 自 增 的 数量 。 例 如 ， 自 定义 的 MyComterGroup 组 计数 器 Badline 每 次 自 增 1， 下 面 分 别 以 C++ 和 Python 进行 实现 。 
c++ 使 用 标准 错误 输出 流 std: : cerr 来 实现 : 


std: :cerr<<"reporter:counter:Temperature, Missing,l\n"; 


Python 使 用 标准 错误 输出 流 sys.stderr 来 实现 。 


sys.stderr.write ("reporter:counter:Temperature, Missing,1\n") 


用 户 自 定义 的 计数 器 和 Hadoop 内 置 的 各 种 计数 器 一 样 都 会 在 作业 的 Web 监 控 界 面 显 示 ， 同 样 ， 用 户 还 可 以 通过 标准 错误 输出 流 来 自 定义 输出 一 些 状态 消息 进而 实现 MapReduce 作 业 和 用 户 的 交互 ， 
格式 为 : 


reporter:status:message 
例如 ， 用 户 可 以 在 Streaming 作 业 的 Mapper 程 序 适 当 位 置 打 印 状态 信息 Map 执 行 状态 信息 ，Python 实 现 如 下 : 


sys.stderr.write ("reporter: status:map 开 始 执 行 ..\n") 


用 户 通过 自 定义 计数 器 及 状态 消息 可 以 有 效 地 调试 MapReduce 作 业 ， 解 决 Hadoop 程 序 调试 困难 的 问题 。 


11.2.5 “处理 二 进 制 数据 


Hadoop streaming 框 架 中 默认 和 用 户 交 互 中 是 通过 分 隔 符 (默认 为 Tab 键 ) 来 解析 <key，value> 键 值 对 的 ， 也 就 是 说 Streaming 在 默认 情况 下 只 能 处 理 文本 数据 。 在 处 理 二 进 制 数据 时 一 个 基本 的 方 
法 就 是 对 二 进 制 的 Key 和 value 进 行 base64 的 编码 转 成 文本 ， 在 本 地 程序 中 再 进行 base64 的 解码 ， 这 样 就 可 以 使 用 默认 的 框架 处 理 二 进 制 数据 。 然 而 值得 庆幸 的 是 ， 在 Hadoop-0.21 版 本 之 后 Streaming 框 
以 通过 -io 参数 选项 来 文 持 二 进 制 数据 处 理 。Hadoop streaming 提 供 了 两 种 二 进 制 文件 格式 以 供 使 用 ， 分 别 如 下 : 


:rawbytes 类 型 ，key 和 value 格 式 以 原始 字 节 长 度 + 原 始 字 节 来 表示 ， 由 RawBytes-OutputReader 类 和 RawBytesInputWriter 类 实现 读 写 操作 。 


-typedbytes 类 型 ，key 和 value 格 式 以 类 型 + 原始 字 节 长 度 + 原 始 字 节 来 表示 ， 所 有 实现 在 源 代 码 包 org .apache .hadoop.typedbytes 中 。 


目前 应 用 相对 广泛 的 是 typedbytes 类 型 ， 而 且 Python 和 C++ 均 有 typedbytes 开 源 实现 (Python 的 一 个 typedbytes 实 现 地 址 为 http://github.com/klbostee/typedbytes，C++ 的 一 个 typedbytes 实 现 
地 址 为 https://github.com/dgleich/libtypedbytes) 。 


下 面 使 用 C+ + 的 开源 typedbytes 实 现 库 来 编写 一 个 简单 的 词 频 统计 示例 ， 以 说 明 如 何在 streaming 框 架 中 使 用 typedbytes 类 型 处 理 二 进 制 数据 。 
在 使 用 C++ 的 typedbytes 库 时 需要 编译 libtypedbytes.a 静 态 库 文 件 ， 并 且 在 程序 头 文件 中 包含 “typedbytes.h” 头 文件 。 


首先 编写 Map 程 序 wc_map.cpp， 实 现代 码 如 下 : 


#include <stdio.h> 

#include <stdlib.h> 

#include <string> 

#include <vector> 

#include "typeqbytes .hy 

Using namespace std; 

// 切 分 函数 ， 用 户 自己 实现 

void split(string striline,vector<string> &vstr,string delim); 
// Map 函 数 
void mapper (TypedBytesInFile& in TypedBytesOutFileg& out) { 


string value; 


while (!feof(in.stream)) { 
// 读 取 key 
TypedBytesType keycode = in.next type(); // key 的 类 型 
if (keycode == TypedBytesTypeError) 1 
if (feof (in.stream)) 
return; 
else 
return; 
} 
assert (keycode = == TypedBytesLong); 
in.convert long(); // ”key 为 行 偏 移 ， 需 要 忽略 
// 读 取 value 
TypedBytesType valcode = in.next type(); 
assert Vr = 0 


in.read string 
让 以 x 格 进行 单词 切 分 


std: :Vector<std: :string> parts; 


split (value, parts, ' '); 

for (size t i=0; i<parts.size(); ++i) { 
out.write string stl(parts[i]); // 写 入 key 
out .write int(1); // 写 入 value 


} 
} 
int main(int argc, char** argv) 


{ 


TypedBytesInFile in(stdin); 
TypedBytesOutFile out (stdout); 
mapper (in, out); 

return 0; 


在 上 述 Map 实 现 中 以 标准 输入 stdin 来 构造 TypedBytesInFile 对 象 ， 以 标准 输出 stdout 构 造 TypedBytesOutFile 对 象 ， 这样 mapper() 函 数 的 输入 就 是 TypedBytes 类 型 的 二 进 制 数 据 ， 输 出 也 是 
TypedBytes 类 型 二 进 制 数据 。 


接 下 来 就 是 实现 Reducer 程 序 wc_reducer.cpp， 实 现代 码 如 下 : 


#include <stdio.h> 
#include <stdlib.h> 
#include <string> 
#include <vector> 


#include "typedbytes.h" 
using namespace stdqd; 
void reducer (TypedBytesIinFileg& in, ee out) { 
std: :string curkey; / 当前 key 
std: : String nextkey; // 下 一 个 key 
if (feof(in.stream) ) { 
return; 
} 
in.next type(); // key 的 类 型 
in.read string (curkey); // 读 取 key 
in.next type () // 读 取 value 的 类 型 
int64 t value = in.convert long(); // 读 取 value 的 值 
int64 七 reduce val = value; 
while (!feof(in.stream)) { 
TypedBytesType keytype = in.next type(); 


if (keytype==TypedBytesTypeError) { 


if (feof (in.stream)) 
return; 

else 
return; 


} 


in.read string (nextkey); 


if (curkey != nextkey) { // J 
out.write string st] (curkey); // 和 疝 输 出 写 入 key 
out .write long (reduce val); // 向 输出 写 入 value 


curkey = nextkey; 
reduce val = 0; 


} 


in.next type () ; // value 的 类 型 

reduce val += in.convert long(); // key 相 同 的 情况 对 value 求 和 
} 
out.write string stl (curkey); // 向 输出 写 入 最 后 一 个 key 
out .write long (reduce val); // 向 输出 写 入 最 后 一 个 value 


int main(int argc char** argv) 


TypedBytesInFile in(stdin); 
TypedBytesOutFile out (stdout); 
reducer (in, out); 

return 0; 


在 wc_reducer.cpp 中 和 在 wc_map.cpp 中 一 样 ， 都 以 标准 输入 stdin 构 造 TypedBytesinFile 对 象 ， 以 标准 输出 stdout 构 造 TypedBytesOutFile 对 象 ,， 编写 方式 和 一 般 的 Streaming 也 基本 一 致 ， 不 同 之 处 
在 于 输入 /输出 都 是 typedbytes 二 进 制 类 型 而 不 是 默认 的 文本 类 型 ， 在 用 户 Mapper 和 Reducer 程 序 内 部 需要 使 用 typedbytes 库 提供 的 解析 <key，value> 函数 来 获取 键 值 对 并 进行 读 写 处 理 。 


完成 编写 后 在 编译 时 需要 使 用 指定 静态 库 libtypedbytes.a， 如 果 可 执行 程序 分 别 为 wc_mapper 和 wc_reducer， 那 么 Streaming 的 提交 脚本 如 下 : 


$HADOOP HOME/contrib/streaming/hadoop-streaming-1.0.4.jar \ 
-IO 'typedbytes' 
-numReduceTasks=10 \ 
—mapper wc mapper -reducer wc reducer \ 
-file /home/nuoline/wc mapper \ 
-file /home/nuoline/wc reducer \ 
-input /data/test input -output /data/test output \ 
-outputformat \ 
'org.apache.hadoop.mapred.SequenceFileOutputFormat'" 


在 上 述 提交 命令 参数 中 ，-io 参 数 选项 指定 使 用 二 进 制 类 型 typedbytes， 也 就 是 Map 的 输入 /输出 和 Reduce 的 输入 /输出 都 是 typedbytes 类 型 的 二 进 制 文件 ; 参数 -outputformat 指 定 输 出 文件 格式 为 
SequenceFileOutputFormat 格 式 。 用 户 当 然 可 以 不 使 用 -io 参 数 选 项 ， 而 使 用 Hadoop 通 用 参数 -D 来 配置 Map 和 Reduce 的 输入 /输出 类 型 ， 具 体 参数 及 意义 ， 如 表 11-10 所 示 。 


表 11-10 ” Streaming 二 进 制 数 据 处 理 参 数 说 明 


项 名 称 参数 意义 说 明 


stream.map.input 指定 Map 的 输入 二 进 制 类 型 ，rawbytes 或 typedbytes 
stream.map.output 指定 Map 的 输出 二 进 制 类 型 ，rawbytes 或 typedbytes 
stream.reduce.input 指定 reduce 的 输入 二 进 制 类 型 ，rawbytes 或 typedbytes 
stream.reduce.output 指定 reduce 的 输出 二 进 制 类 型 ，rawbytes 或 typedbytes 


在 上 述 例子 中 与 Streaming 提 交 作 业 命 令 等 价 的 参数 配置 如 下 : 


$HADOOP HOME/contrib/streaming/hadoop-streaming-1.0.4.jar \ 


在 实际 应 用 中 用 户 使 用 -io 指定 一 个 类 型 即 可 ， 如 果 有 特殊 需求 ， 可 以 通过 表 11-10 中 的 参数 来 自 定义 。 


11.2.6 ”使 用 聚合 


= 
-—D 
-D 
=D 


stream. red 
stream.map. 
stream. red 
-numReduceTasks=10 \ 


stream.map.input=typedbytes \ 
uce.input=typedbytes \ 


output=typedbytes \ 


uce .output=typedbytes \ 


-mapper we mapper -reducer wc reducer \ 


—fi 


fi] 


-input /data/ 
—outputf 


e /home/nuoline/wc mapper \ 
e /home/nuoline/wc reducer \ 


ormat 


test input -output /data/test output \ 


'org.apache.hadoop.mapred.SequenceFileOutputFormat'" 


在 Streaming 中 还 有 一 个 比较 好 有 的 Hadoop Streaming 软 件 包 ， 这 个 软件 包 主 要 实现 了 一 些 可 以 在 streaming 程 序 直 接 使 用 的 聚合 函数 类 ， 一 般 称 之 为 Streaming 的 aggregate 功 能 ， 内 置 的 聚合 函 
数 ， 如 表 11-11 所 示 。 


下 面 通过 一 个 使 用 LongValueSum 聚 合 


表 11-11 Streaming 的 aggtegate 函 数 说 明 


人 称 意义 说 明 
DoubleValueSum 对 double 类 型 的 value 求 和 
LongValue Max 对 long 类 型 的 value 求 最 大 值 
LongValueMin 对 long 类 型 的 value 求 最 小 值 
LongValueSum 对 long 类 型 的 value 求 和 
StringValueMax 对 string 类 型 的 value 求 宇 母 厅 最 大 的 值 


StringValueMin 
UniqValueCount 唯一 value 的 次 数 计数 


ValueHistogram x 对 value 求 个 数 ， 最 小 值 、 


对 string 类 型 的 value 求 字 母 厅 最 小 的 值 


中 值 、 最 大 值 、 平 均值 和 标准 方差 


函数 的 例子 来 说 明 如 何在 Streaming 中 使 用 aggregate 功 能 。LongValueSum 的 功能 是 对 于 相同 key 的 所 有 value 求 和 ， 在 用 户 Mapper 中 的 输出 格式 为 : 


LongValueSum: key\tvalue 


这 里 通过 使 用 LongValueSum 函 数 类 


实现 词 频 统计 来 说 明 aggregate 的 使 用 方法 ， 用 户 的 map 程 序 wc_map.py 实 现代 码 如 下 (Python 实现 ) : 


#!/usr/bin/env py 


import sys 


# 从 标准 输入 读 取 


for 


ine in sys.st 
words = line.strip() .split() 


thon 


tdin: 


for word in words: 


sys.stdout 


.write('LongValueSum:%s\t%d\n's (word, value)) 


然后 在 Streaming 提 交 脚 本 中 指定 Reducer 为 aggregate 即 可 ， 具 体 提交 代码 如 下 : 


# 启 动作 业 提 
SHADOOP_HOM 


交 的 streaming 命 令 
E/bin/hadoop jar \ 


$HADOOP HOME/contrib/streaming/hadoop-streaming-1.0.4.jar \ 


-numRed 


= 


EE 


uceTasks=2 \ 


np 


ed 


ut /data/test input -output /data/test output \ 
-mapper "python we map.py"\ 

uCcer aggregate \ 

file /home/nuoline/wc map.py 


表 11-11 中 的 其 他 聚合 函数 的 使 用 方法 与 此 类 似 。 人 在 实际 生产 作业 中 适当 使 用 aggregate 内 置 的 聚合 


11.3 ”Pipes 编 程 接口 


在 用 户 接 口上 ，Pipes 框 架 对 编程 接口 进 


函数 可 以 有 效 地 提高 工作 效率 。 


行 了 统一 封装 。 相 对 于 streaming 框 架 来 说 一 个 明显 的 好 处 就 是 Pipes 的 编程 接口 和 Java 的 编程 接口 类 似 ， 用 户 编程 相对 容易 ， 用 户 不 仅 可 以 直接 使 用 C++ 的 接 


口 编写 Mapper 和 Reducer， 还 可 以 使 用 Pipes C++ 编程 库 提供 的 接口 自 定 义 Partitioner，RecordReader 和 RecordWriter。 为 了 便于 使 用 用 户 编写 C++ 的 Mapper 和 Reducer 类 ，Pipes 框 架 还 提供 了 一 个 
C++ 的 TaskContext 基 类 。 下 面 对 这 几 个 编程 接口 进行 讲述 


11.3.1 


TaskContext 


首先 需要 介绍 一 下 TaskContext 这 个 接口 类 主要 封装 了 用 户 作 业 中 的 相关 操作 。Mapper 和 Reducer 接 口 都 需要 使 用 这 个 类 来 进行 和 框架 交互 数据 ， 包 括 从 Hadoop pipes Java 端 获取 <key，value> 键 


值 对 ， 提 交 用 户 处 理 结果 到 Pipes Java 端 等 ， 主 要 接口 如 下 : 
virtual const std::string& getInputKey() = 0; 
virtual const std::string& getInputValue() = 0; 


virtual void emit (const std::string& key, 


通过 函数 getlnputKey0 和 getlinputValue() 就 可 以 获取 来 自 Hadoop 框 架 的 <key，value> 键 值 对 ， 通 过 


const std::string& value) = 0; 


到 Hadoop 框 架 ， 在 Mapper 接 口中 具体 使 用 MapContext; 在 Reducer 接 口中 具体 使 用 ReduceContext。 


函数 emit(const std: : string&key，const std: : string&value) 就 可 以 提交 用 户 的 处 理 结果 


除了 这 三 个 重要 的 接口 函数 之 外 ，TaskContext 还 提供 了 操作 计数 器 的 类 Counter 和 函数 接口 。 函 数 接口 如 下 : 


virtual Counter* getCounter(const std::string& group, 

const std::string& name) = 0; 

virtual void incrementCounter (const Counter* counter, 
uint64 七 amount) = 0; 


通过 函数 getCounter() 束 可 以 自 定义 注册 一 个 hame 命 名 的 计数 器 ， 然 后 就 可 以 使 用 函数 incrementCounter0 对 计数 器 进行 自 增 操作 。 
11.3.2 Mapper 


pipes 的 C+ + 封装 接口 中 的 Mapper 在 功能 上 类 似 于 Java 接 口中 的 Mapper<KEYIN，VALUEIN，KEYOUT，VALUEOUT> 基 类 ， 具 体 定义 如 下 : 


class Mapper: public Closable { 
public: 
virtual void map (MapContext& context) = 0; 


}; 


用 户 在 使 用 C++ 编 写 自 己 的 Mapper 类 时 需要 继承 这 个 类 ， 并 且 需 要 重 写 map() 冰 数 。map() 遂 数 中 的 参数 类 型 MapContext 继 承 了 TaskContext 类 ， 类 似 于 Java API 接 口中 的 MapContext 类 。 通 过 
MapContext 类 的 对 象 context 中 提供 的 相应 函数 就 可 以 很 方便 地 获取 来 自 Hadoop pipes 框 架 的 <key，value> 信 息 ， 并 把 处 理 结果 提交 到 Hadoop 框 架 ， 而 使 用 者 不 再 需要 关心 具体 的 数据 传输 。 


下 面 通过 一 个 简单 的 例子 来 具体 说 明 ， 假 如 输入 数据 的 每 行 记录 有 三 个 字段 ， 字 段 之 间 的 分 隔 符 为 英文 冒号 “: ”， 在 Map 操 作 中 需要 解析 第 一 列 和 第 三 列 ， 并 将 第 一 列 作为 key， 第 三 列 作为 value。 
使 用 Pipes 的 Mapper 接 口 编写 MyMapper 类 的 实现 代码 如 下 : 


class MyMapper: public HadoopPipes: :Mapper { 
// 重 号 的 Map 函 数 


void map (HadoopPipes: :MapContext& context) { 
vector<string> flist = 
HadoopUtils::splitSstring (context.getInputValue(), "™:"); 
string key = flist[0]; 
string value = flist[2]; 


context.emit (key, value); 


在 上 述 代 码 中 通过 context.getlnputValue() 函 数 可 以 获取 输入 文件 中 的 一 行 记录 ， 通 过 HadoopUtils 提 供 的 splitString0 函 数 对 每 行 记录 进行 分 隔 ， 然 后 将 第 一 列 flist[0] 作 为 key， 将 第 三 列 flist[2] 作 为 


value， 最 后 通过 context.emit(key，value) 提 交 输 出 <key，value> 到 Hadoop 框 架 。 
11.3.3 Reducer 


和 Mapper 一 样 ，Pipes 的 C++ 封装 接口 中 的 Reducer 类 似 于 Java 接 口中 的 Reducer<KEYIN，VALUEIN，KEYOUT，VALUEOUT> 基 类 ， 有 具体 定义 如 下 : 


class Reducer: public Closable { 
public: 
virtual void reduce (ReduceContext& context) = 0; 


}; 


用 户 在 编写 自己 的 Reducer 类 时 要 继承 这 个 类 ， 并 且 需 要 重 写 reduce() 国 数 。reduce(0) 国 数 中 的 ReduceContext 也 继承 自 TaskContext 类 ， 类 似 于 Java API 接 口中 的 ReduceContext 类 。 用 户 通 过 
ReduceContext 提 供 的 相应 方法 就 可 以 得 到 来 自 Map 输 出 的 <key，value> 键 值 对 ， 通 过 emit(0 函 数 就 可 以 直接 提交 Reducer 的 输出 到 Hadoop 框 架 。 


这 里 通过 一 个 例子 来 具体 说 明 其 使 用 方法 。 假 定 Map 的 输出 就 是 11.2.1 节 中 例子 的 输出 ， 其 中 value 为 数字 ，Reduce 要 做 的 工作 就 是 获取 相同 的 key 下 的 所 有 value， 相 加 求 和 ，MyReducer 的 类 核心 实 
现代 码 如 下 : 


class MyReducer: public HadoopPipes::Reducer { 
// 重 写 Reduce 函 数 
void reduce (HadoopPipes: :ReduceContext& context) { 
int gum = 0 
while (context.nextValue()) { 
sum += HadoopUtils::toInt (context .getInputValue () ) ， 


} 
string strSum = HadoopUtils::toString (sum); 
context.emit (Context .getInputKey(),strSum); 


在 上 述 代码 中 通过 context.nextValue(0) 可 以 获取 相同 key 下 的 所 有 value， 然 后 将 其 转化 为 int 后 求 和 ， 之 后 通过 context.emit(context.getInputKey()，strSum) 将 输出 结果 <key，value> 提 交 到 
Hadoop 框 架 ， 最 终 便 会 根据 OutPutFormat 指 定 的 格式 写 入 HDFS。 


11.3.4 Partitioner 


Hadoop Pipes 框 架 还 提供 了 自 定义 Partitioner 的 接口 ， 接 口 类 如 下 : 


class Partitioner { 

public: 

virtual int partition(const std::string& key,int numOfReduces) = 0; 
virtual ~Partitioner() {} 


}; 


这 个 接口 类 在 功能 上 和 Java APl 中 提供 的 Partitioner 接 口 类 一 样 ， 如 果 默 认 的 Partitioner 不 能 满足 需求 ， 用 户 可 以 通过 继承 这 个 基 类 并 重 写 partition() 函 数 来 自 定义 Partitioner。 从 Partitioner 接 口 类 的 
参数 可 以 看 出 ，Hadoop 框 架 本 身 会 传 入 key 和 Reducer 数 目 numOfReduces 参 数 ， 用 户 根据 自己 的 哈 希 分 桶 算法 进行 处 理 ， 最 后 只 需要 返回 一 个 [0，numOfReduces-1] 区 间 (包括 0 和 numOfReduces- 
1) 内 的 一 个 数 即 可 ， 意 义 就 是 对 于 给 的 key 应 该 由 哪 一 个 Reducer 来 处 理 。 


11.3.5 RecordReader 


在 默认 情况 下 ，pipes 框 架 也 使 用 TextlinputFormat 作 为 输入 格式 ， 对 应 的 RecordReader 实 现 是 默认 的 LineRecordReader (key 为 行 偏 移 量 ，value 为 行内 容 ) 。 如 果 用 户 需 要 使 用 C++ 自 定义 
RecordReader， 可 以 使 用 Pipes 提 供 的 接口 类 ， 有 具体 代码 如 下 : 


class RecordReader: public Closable 1{ 


public: 


virtual bool next (std::string& key std::string& value) 


芒 二 六 tProgress () 


}; 


tual 


float ge 


0 


Oy 


六 


用 户 在 自 定 义 RecordReader 时 需要 继承 RecordReader 基 类 ， 并 且 实 现 next0 和 getProgress() 两 个 函数 ， 用 户 可 以 在 自 定 义 RecordReader 构 造 函数 时 携带 类 型 为 HadoopPipes 提 供 的 MapContext 类 
参数 。 用 户 通过 MapContext 对 象 的 getlnputSplit( 函 数 可 以 获取 经 过 序列 化 的 InpuSplit 对 象 ， 通 过 InpuSsplit 对 象 就 可 以 获取 当前 要 处 理 的 InputSplit 所 在 的 文件 名 、 所 在 文件 中 的 偏 移 量 ， 以 及 长 度 等 信 
息 ， 然 后 用 户 在 实现 自己 的 next() 函 数 时 就 可 以 使 用 libhdfs C++ 库 读 取 文 件 从 而 实现 自 定 义 RecordReader 功 能 。 


这 里 参考 Hadoop 自 带 例子 实现 一 个 使 用 Pipes C++ 接口 RecordReader 编 写 的 自 定 义 MyRecordReader， 核 心 代码 如 下 。 


class MyRecordReader: public HadoopPipes::RecordReader { 


private: 
int64 七 bytesTotal; 
int64 七 bytesRead; 
FILE* file; 
publie: 
// 构造 函数 ， 使 用 MapContext 类 对 象 获取 InputSplit 对 象 相关 参数 
MyRecordReader (HadoopPipes::MapContext& context) { 
std: :string filename; 
HadoopUtils::StringInStream stream(context.getIinputSplit ()); 
HadoopUtils: :deserializeString (filename, stream); 
struct stat statResult; 
stat (filename.c str(), &statResult); 
bytesTotal = statResult.st size; // 文件 大 小 
bytesRead = 0; 
Fi] Fopen (filename.c str(), "rt"); // 打开 当前 处 理 文件 
HADOOP ASSERT (file != NULL, "failed to open " + filename); 


}; 


在 上 述 实现 代码 中 构造 函数 主要 的 工作 就 是 从 MapContext 类 的 对 象 context 中 获取 当前 分 块 InputSplit 所 在 的 文件 信息 ，f 


} 
// 析 构 函数 ， 需 要 关闭 打 


~ 


} 
// 重 写 next 函 
virt 


// 读 取 当前 位 置 相 对 于 文人 


MyRecordReader () { 
fclose (file); 


数 


的 文件 


ual bool next (std::s 


tringg& 


F 首 的 1 


局 移 字 


key, std::string& Value) { 
节 数 作为 key 


key = HadoopUtils: :tosS 
int ch = getc (file); 
bytesRead += 1; 
value.clear () ， 
while (ch != -1 

value += ch; 

ch = getc(f 

bytesRead + 
} 


return ch != -1;} 


bts 


le); 
让 


} 
// 实现 getProgress () 函数 


virtual 


} 


float ge 
tesTotal 
floa 


if (by > 0) 1 
return ( 

} else { 
return 1.0f; 


} 


tring ( 


tell (file)); 


tProgress() { 


// 循环 


&& ch != '\n') { 


t)bytesRead / bytesTotal; 


后 在 getProgress() 函 数 中 返回 一 个 [0.0，1.0] 之 间 的 一 个 值 用 于 报告 读 取 进 度 信息 。 


11.3.6 RecordWriter 


和 Hadoop 的 默认 情况 一 样 ，pipes 框 架 的 默认 输出 格式 为 TextOutputFormat， 相 应 的 RecordWriter 实 现 为 LineRecordWriter。Hadoop 会 通过 LineRecordWriter 类 将 


最 终结 


汰 后 在 实现 next() 函 数 时 通过 libhdfs 读 取 偏 移 量 作为 key， 内 容 作 为 value， 最 


果 写 入 输出 文件 ， 格 式 为 


一 行 一 个 <key，value> 键 值 对 ，key 和 value 之 间 用 tab 分 隔 。 如 果 用 户 不 打算 使 用 Hadoop 本 身 的 Java APl 中 的 RecordWriter， 也 可 以 使 用 pipes 框 架 提 供 的 C+ + 接口 实现 自 定义 的 RecordWriter，C++ 接 
口 类 如 下 : 


class RecordWriter: public Closable { 
public: 


}; 


Virtual void emit (Cons 


std:s 


tring& key, 


const 


std::s 


tring& value) 


07 


用 户 在 使 用 C+ + 语言 自 定 义 RecordWrite 时 需要 继承 RecordWriter 基 类 ， 并 且 实 现 emit(0) 函 数 ， 用 户 自 定义 RecordReader 时 可 以 在 构造 函数 中 通过 ReduceContext 对 象 获取 Reducer 相 关 的 参数 ， 包 
括 当前 partition 分 桶 号 (也 就 是 Reducer 号 ) 、 输 出 目录 等 信息 ， 然 后 实现 emit( 函 数 时 就 可 以 使 用 这 些 信息 。 


同样 这 里 参考 Hadoop 自 带 例子 实现 一 个 使 用 Pipes C++ 接口 RecordReader 来 编写 的 My RecordWriter， 核 心 实现 代码 如 下 : 


class My RecordWriter: public HadoopPipes::RecordWriter 1{ 


private: 
FILE* file; // 当前 要 输出 的 文件 
publies 
// 构造 函数 
MyRecordWriter (HadoopPipes: :ReduceContext& context) { 
const HadoopPipes::JobConf* job = context .getJobConf (); 
// 得 到 当前 输出 的 partition 号 ， 也 就 是 Reducer 号 


} 
// 析 构 函数 ， 需 要 关闭 文件 


int part = job->get 
// 作业 的 输出 目录 

atd::strineg OutDir 
std: :string::size 


= job->gei 
type posn = outDir. 


Int ("mapred.task.partition"); 


t ("mapred.work.output .dir"); 


finmd (Ts")s 


HADOOP ASSERT (posn != 


"no Schema 


std::s 
found 


tring: :npos, 


in output dir: ”十 outDir)} 


outDir.erase (0, posn+1); 
mkdir (outDir.c str(), 0777); // 创建 输出 目录 
// 输出 文件 名 
std: :string outFile = outDir + "/part-" + 
HadoopUtils: :toStrind (part); 
file = fopen (outFile.c str(), "wt"); // 打开 文件 ， 准 备 写 入 
HADOOP ASSERT (file != NULL, "can't open file for writing: " + outFile); 


~MyRecordWriter() { 


} 
// 实现 em 


fclose (file); 


让 () 函数 ， 将 <key,value> 写 入 输出 文件 


void emit (const std::string& key, const std::string& Value) { 


} 


}; 


Fprintf( 


在 上 述 实现 代码 中 ， 构 造 函数 的 功能 


file, "gs -> Ss\n", key.c str(), value.c str()); 


主要 就 是 得 到 输出 文件 信息 ， 包 括 当前 Reducer 号 和 文件 名 ， 然 后 在 emit() 函 数 实现 中 直接 将 <key，value> 写 入 要 输出 的 文件 中 。 


11.4 ”Pipes 编 程 应 用 


相 比 于 Streaming 框 架 ，pipes 框 架 最 大 的 优势 就 是 编程 接口 更 接近 Java API 接 口 ， 并 且 用 户 可 以 在 C++ 空间 内 自 定义 五 个 组 件 ， 包 括 : Mapper、Reducer、Partitioner、RecordReader 和 
RecordWriter。 在 使 用 时 用 户 一 般 情 况 下 只 需要 实现 Mapper 和 Reducer 类 即 可 满足 大 部 分 需求 。 虽 然 Pipes 框 架 提供 了 RecordReader 和 RecordWriter 接 口 ， 但 是 其 本 身 还 是 调用 了 libhdfs 库 ， 这 个 库 是 采 
用 JNI 实 现 的 ， 也 就 是 最 终 还 是 要 调用 Java 相 关 类 ， 效 率 相对 较 低 ， 因 此 建议 直接 采用 Hadoop 本 身 提供 的 Java 实 现 或 者 使 用 Java 调 用 Hadoop Java API 实现。 


用 户 在 使 用 Pipes 提 供 的 C++ 库 编 写 Mapper 和 Reducer 时 需要 包含 以 下 头 文 件 : 


#include "hadoop/Pipes.hh" 
#include "hadoop/TemplateFactory.hh" 
#include "hadoop/StringUtils.hh" 


前 两 个 是 Hadoop pipes 的 头 文件 ， 第 三 个 StringUtils.hh 主 要 封装 了 Hadoop 中 常用 的 字符 串 处 理 函 数 ， 包 括 splitstring0、tolnt(0、toFloat() 等 。 如 果 用 户 有 序列 化 和 反 序 列 化 需要 ， 还 需要 包 
“hadoop/serialUtils.hh” 。 


0 


在 编译 时 还 需要 加 上 -Ilhadooppipes 和 -Ilhadooputils 参 数 ， 这 两 个 库 用 户 最 好 在 自己 的 机 器 平台 上 重新 编译 生成 ， 以 免 发 生 不 兼容 现象 。 最 后 可 以 通过 Hadooppipes 提 供 的 runTask() 函 数 来 驱动 ， 接 
口 如 下 : 


bool runTask (const Factory& factory); 
Factory 是 一 个 工厂 类 ， 通 过 模板 机 制 实 现 ， 其 中 一 个 模板 定义 为 : 


template <class mapper, class reducer> 
class TemplateFactory2: public Factory { 
public: 
// 创建 Mapper 
Mapper* createMapper (MapContext& context) const { 
return new mapper (context); 


} 
// 创建 Reducer 
Reducer* createReducer (ReduceContext& context) const { 
return new reducer (context);} 
} 
}; 


例如 ， 用 户 使 用 pipes 接 口 实现 了 Mapper 和 Reducer， 实 现 类 分 别 为 : MyMapper 和 MyReducer， 其 他 组 件 均 使 用 默认 值 ， 在 main() 遂 数 中 的 具体 编写 如 下 : 


int main(int argc, char *argv[]) { 
return HadoopPipes::runTask (HadoopPipes::TemplateFactory< 
WordCountMap, 
WordCountReduce> () ) ; 


然后 就 是 编写 Pipes 作 业 的 提交 脚本 ， 具 体 pipes 命 令 可 以 参考 7.7 节 的 内 容 介 绍 ， 相 关 参 数 和 Streaming 作 业 的 参数 用 法 一 致 。 以 上 述 的 MyMapper 和 MyReducet 为 例 ， 用 户 编译 后 的 可 执行 程序 为 
mypipesapp， 本 地 路 径 为 /usevnuoline/mypipesapp， 则 pipes 作 业 提 交 脚 本 如 下 : 


$HADOOP HOME/bin/hadoop pipes \\ 

-D hadoop.pipes.java.recordreader=true \ 
-D hadoop.pipes.java.recordwriter=true \ 
-input input path \ 

-output output path \ 

-program /user/nuoline/mypipesapp 


其 他 相关 同名 参数 及 Hadoop 通 用 参数 的 使 用 方法 和 streaming 作 业 中 的 一 致 ， 这 里 不 再 袭 述 。 


11.5 小 结 


本 章 主要 对 Hadoop Streaming 编 程 和 Pipes 编 程 进行 了 讲述 ， 在 Streaming 编 程 部 分 首先 从 编程 入 门 的 角度 介绍 了 基本 编程 方法 ， 然 后 从 高 级 使 用 的 角度 讲述 了 在 实际 工作 中 经 常 遇 到 的 编程 问题 ;在 
Pipes 编 程 部 分 首先 介绍 了 编程 接口 ， 然 后 介绍 了 Pipes 的 编译 应 用 。streaming 和 Pipes 是 Hadoop 除 了 自身 Java APl 之 外 提供 的 两 大 编程 接口 ， 这 两 个 接口 使 得 用 户 可 以 使 用 任何 语言 来 编写 基于 


MapReduce 的 应 用 程序 ， 其 使 得 使 用 Hadoop 来 处 理 大 数据 变 得 更 加 容易 。 这 两 个 接口 的 不 同 在 于 Streaming 使 用 标准 输入 /输出 来 和 Hadoop 框 架 进 行 交互 ， 而 Pipes 框 架 是 针对 C/C++ 语言 使 用 Socket 来 
和 Hadoop 框 架 进行 交互 的 。 


虽然 这 两 个 编程 接口 易于 使 用 ， 并 且 有 着 很 强 的 通用 性 ,但 是 缺点 也 是 比较 明显 的 ， 也 就 是 用 户 的 程序 和 Hadoop 框 架 并 不 在 一 个 进程 空间 ，Hadoop 框 架 只 能 将 用 户 的 可 执行 程序 作为 独立 的 进程 启 
动 ， 无 法 进行 更 多 控制 ， 在 内 存 等 资源 管理 上 无 法 共享 ， 用 户 程序 和 Hadoop 框 架 直接 的 交互 存在 大 量 数据 复制 从 而 消耗 了 额外 的 带宽 资源 。 一 般 情 况 下 ， 对 于 数据 密集 型 的 作业 来 讲 ， 使 用 Java API 更 加 
高 效 ， 而 对 于 计算 密集 型 的 作业 来 讲 或 许 使 用 C+ + 语言 来 编写 处 理 逻 辑 相对 更 加 高 效 ， 因 为 数据 密集 型 作业 中 很 大 一 部 分 时 间 消 耗 在 /O 上 ， 而 不 是 真正 处 理 数 据 上 ， 而 计算 密集 型 作业 中 数据 计算 所 消耗 


= 了 LI 一 人 


的 时 间 基 本 占 了 整个 作业 大 部 分 的 处 理 时 间 ， 在 MO 上 则 相对 较 小 ， 因 此 使 用 C++ 语言 编写 处 理 在 逻辑 上 更 加 高 效 。 然 而 在 实际 生产 环境 下 用 户 是 可 以 同时 使 用 多 种 语言 来 编写 Hadoop 应 用 的 。 


第 12 章 Hadoop MapReduce 应 用 开发 


在 前 面 的 章节 中 我 们 对 Hadoop 进 行 了 详细 的 介绍 ， 包 括 HDFS 和 MapReduce 模 型 的 实现 原理 ， 本 章 从 应 用 的 角度 来 讲述 如 何在 Hadoop 分 布 式 计算 平台 上 开发 基于 MapReduce 模 型 的 并 行 应 用 程序 。 


12.1 开发 环境 准备 


在 开发 Hadoop 应 用 之 前 首要 的 就 是 准备 好 开发 环境 ， 用 户 可 以 使 用 任何 可 以 编写 代码 的 编辑 器 (如 vim，UltraEdit 等 ) ， 或 者 直接 使 用 一 些 集成 开发 环境 (如 Eclipse，NetBeans，Hadoop Studio 等 
IDE) 。 


在 准备 好 开发 环境 之 后 还 需要 做 两 件 事情 : 


第 一 件 就 是 导入 Hadoop 的 类 库 ， 开 发 者 需要 将 Hadoop 安 装 目录 下 的 jar 文 件 以 及 lib 目 录 下 的 jar 文 件 导入 CLASSPATH 环 境 变 量 ， 当 然 用 户 也 可 以 依据 具体 的 需要 导入 相应 的 依赖 类 库 。 一 般 情 况 下 至 
少 需 要 将 Hadoop-core-x.y.z.jar 类 库 文件 (x.y.Xx 为 Hadoop 版 本 号 ， 例 如 Hadoop-core-1.0.4Jjar) 导入 到 CLASSPATH 环 境 变量 ， 其 他 的 类 库 则 根据 应 用 需要 选择 是 否 导 入 ; 第 二 件 就 是 设置 Hadoop 的 配 
置 文件 参数 。 设 置 参数 的 目的 是 需要 告诉 应 用 程序 在 提交 时 应 该 提交 到 哪个 集群 以 及 默认 参数 的 配置 。 在 设置 Hadoop 配 置 参 数 时 至 少 需要 配置 两 个 重要 参数 : 一 个 是 HDFS 的 NameNode 主 机 名 和 地 址 参 
数 ， 通 过 在 配置 文件 $4HADOOP_HOME/conf/core-site.xml 中 配置 fs.default.name 参 数 实现 。 这 个 参数 是 用 于 指定 应 用 程序 默认 要 访问 的 HDFS 集 群 信息 ;， 另 一 个 必要 参数 就 是 需要 指定 MapReduce 的 
JobTracker 主 机 名 和 地 址 ， 需 要 在 配置 文件 HADOOP_HOME/conf/mapred-site.xml 中 通过 设置 属性 参数 mapredjob.tracker 来 实现 ， 这 个 参数 的 目的 是 指定 用 户 在 提交 作业 时 应 该 提交 到 哪个 集群 的 


JobTracker。 


12.2 ”Eclipse 集成 环境 开发 


在 Hadoop 应 用 开发 中 好 的 开发 工具 往往 可 以 提高 开发 效率 ， 缩 短 开发 周期 。 相 比 于 命令 行 代码 编辑 器 而 言 集成 开发 环境 IDE 具 有 很 多 优势 ， 例 如 ，1DE 往 往 集成 了 代码 编写 功能 、 分 析 功 能 、 编 译 功 
能 、 调 试 功能 等 一 体 化 的 开发 软件 服务 套件 ， 在 Hadoop 平 台 上 开发 并 行 应 用 相 比 于 单机 程序 在 编译 和 调试 上 往往 相对 复杂 ， 因 此 建议 初级 和 中 级 开发 者 选择 IDE 环 境 ， 这 样 会 显著 提高 开发 效率 。 开 发 者 可 
以 选择 比较 经 典 的 Eclipse， 或 者 基于 NetBeans 的 Hadoop Studio 开 发 环境 。Hadoop 的 发 行 版 中 自 带 了 Ecdlipse 揪 件 ， 因 此 可 以 很 容易 基于 Eclipse 构 建 MapReduce 集 成 开发 IDE。 下 面 以 Eclipse 1DE 为 例 讲 
述 如 何在 集成 开发 环境 中 开发 Hadoop MapReduce 并 行 应 用 程序 。 


12.2.1 构建 MapReduce Eclipse IDE 


首先 需要 安装 好 Eclipse 环境 ， 然 后 编译 生成 相应 的 Hadoop Eclipse 插件 ， 最 后 基于 Hadoop Eclipse 插 件 构建 MapReduce Eclipse 1DE 集 成 开发 环境 ， 主 要 步骤 如 下 : 
步骤 1 下 载 并 安装 Eclipse SDK 开 发 环境 ， 同 时 还 需要 安装 ant 编 译 工具 。 
步骤 2 编译 Hadoop Eclipse 插件 。 


Hadoop Eclipse 插件 的 源 代码 位 于 $HADOOP_HOME/src/contriby/eclipse-plugin 目 录 下 ， 为 了 和 下 载 的 Eclipse 的 版 本 兼容 ， 在 编译 过 程 需要 用 到 Eclipse 的 目录 以 及 Hadoop 的 lib 下 面 的 相关 jar 依 赖 
类 库 文 件 ， 因 此 开发 者 还 需要 修改 4HADOOP HOME/src/contriby/eclipse-plugin/ybuild.xml 文 件 中 的 Eclipse 和 Hadoop 类 库 路 径 。 


修改 完 build.xml 文 件 之 后 就 可 以 直接 执行 编译 命令 ， 命 令 如 下 : 


cd $HADOOP HOME/src/contrib/eclipse-plugin 
ant 


完成 编译 之 后 就 会 在 hbHADOOP_HOME/build/contrib/eclipse-plugin 路 径 下 生成 编译 好 的 Hadoop Eclipse 插件 。 


步骤 3 ”复制 生成 的 Hadoop Eclipse 插件 到 plugins 目 录 ， 命 令 如 下 : 


cp $HADOOP HOME/build/contrib/eclipse-plugin/ \ 
hadoop-x.y.z-eclipse-plugin.jar SECLIPSE HOME/plugins 


在 上 述 命令 中 ，hadoop-x.y.z-eclipse-plugin.jar 为 步骤 2 所 生成 的 Hadoop Eclipse 插 件 ，x.y.z 为 Hadoop 版 本 号 ， 例 如 Hadoop 的 版 本 为 Hadoop-1.2.1， 那 么 具体 插件 名 称 就 是 hadoop-1.2.1- 
eclipse-pluginJjar，$ECLIPSE_ HOME 是 用 户 Eclipse 安 装 的 目录 。 


对 于 Linux 操 作 系统 的 用 户 而 言 ， 为 了 便于 用 户 在 桌面 上 创建 一 个 图 形 界面 快速 启动 项 (类 似 于 Windows 系 统 的 快捷 方式 ) ， 可 以 进行 如 下 操作 : 右 击 图 形 界面 选择 “新 建 启 动 器 ” (New 
Launcher) 名 称 (Name) 输入 Eclipse 命令 (Command) 选择 Eclipse 解 压 目 录 /usr/nuoline/eclipse 图 标 (lcon) 可 以 选择 Eclipse 的 图 标 单 击 确定 完成 ， 然 后 就 可 以 双击 图 形 界面 中 的 快速 启动 来 启动 
Eclipse 了 。 


步骤 4 启动 Eclipse。 
1) 选择 工作 空间 ， 如 图 12-1 所 示 。 


2) 在 Eclipse 工具 栏 上 选择 windowopen pershttp://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/...otherhttp://www.hzcourse.com/resource/readBook? 


path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/...Map/Reduce， 如 图 12-2 所 示 。 


四 Workspace Launcher 
select a Workspace 


Eclipse SOK stores YOUT projects Im a folder called a workspace. 
choose a Workspace folder to use for this session. 


Workspace: |/homeinuoline/workspace 


Use this as the default and do not ask again 


图 12-1 选择 工作 空间 
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图 12-2 ”选择 Map/Reduce 工 程 环 境 图 


3) 单 击 Eclipse Map/Reduce 工 程 环境 图 右 下 角 Map/Reduce Location 选 项 卡 ， 单 击 “New Hadoop locationhttp://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/..http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach _ ebook/uncompressed/15128/OEBPS/Text/..”， 然 后 在 弹出 窗口 中 填 入 Hadoop 集 群 相 关 参 数 ， 注 意 这 里 的 参数 必须 和 Hadoop 的 配置 文件 中 的 保持 一 
致 ，Locationname 和 Host 填 写 localhost; Map/Reduce Master 的 端口 号 必须 和 maped-site.xml 的 参数 保持 一 致 ， 这 里 填写 9001; DFS Master 盾 写 HDFS 的 NameNode 端 口号 ， 必 须 和 core-site.xml 中 
的 HDFs 配 置 端口 号 保持 一 致 ， 这 里 填写 9000; 用户 名 为 Hadoop 的 所 有 者 用 户 名 ， 即 安装 Hadoop 的 Linux 用 户 ， 这 里 默认 为 系统 当前 用 户 一 一 nuoline， 填 写 完毕 配置 图 ， 如 图 12-3 所 示 。 


New Hadoop localtl 


Define Hadoop location 


Define the location of a Hadoop Infrastructure for nnning MapReduce applications 


Location name: |localheost 

Map/heduce Master GFS Master 

Hest [ioealhost 闸 Use M/IR Master host 
HGst: 


Port: |9001 port: [9000 


User name: | nuoline 


SKS proxy 
Enable SOCKS proxy 


图 12-3 Eclipse 下 的 Hadoop 配 置 图 


4) 单 击 Finish 按 钮 ， 会 看 到 所 配置 的 Hadoop， 点 开 左 侧 的 DFS Locations， 可 以 浏览 HDFS 中 的 文件 ， 如 图 12-4 所 示 。 


四 Map/Reduce - Ecllpse SDK 
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图 12-4 Eclipse 下 的 DFS 浏 览 功 能 
至 此 ， 开 发 Hadoop 应 用 程序 的 MapRe-duce Eclipse IDE 环 境 搭建 完成 。 
12.2.2 ”开发 示例 


下 面 仍 以 单词 统计 为 例 ， 讲 解 使 用 Eclipse 开 发 Map/Reduce 并 行 应 用 程序 的 流程 与 方法 。 


在 刚才 搭建 的 Eclipse Map/VReduce 环 境 下 的 工具 栏 中 选择 file 一 new 一 project 一 Map/Reduce 一 Map/Reduce Project 一 next 新 建 一 个 Map/Reduce 工 程 ， 操 作 完 成 后 弹出 的 界面 如 图 12-5 所 示 。 


New MapReduce Prolect Wizard 

MapReduce Project 

eB rvalid Hadoop Runtime specified: please click “Configure Hadoop install 
directory’ or fll in lbrary location Inpaut field 


project narmme: | wordcount 


国 Use default location 


Hadoop Mapheduce Library Installation Path 


Use default Hadoop (currentiy rat set) 


Specify Hadoop library location 


图 12-5 ”新建 wotdcount 工 程 


填 入 工程 名 字 ， 这 里 填写 wordcount。 然 后 配置 Hadoop 安 装 目 录 ， 选 择 右边 的 “Configure Hadoop install directoryhttp://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/...”， 选 择 Hadoop 所 装 的 目录 ， 如 图 12-6 所 示 。 


Preferences 
Hadoop Map/Reduce Tools Select Hadoop iInstallation Directory 


Hadoop installation directory: | /opUhadoophadoop-0.20.2 


图 12-6 ”选择 Hadoop 所 装 的 目录 示意 图 


点 击 OK 按钮 后 出 现 如 图 12-7 所 示 的 界面 。 
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图 12-7 Map/Reduce 工 程 建立 完毕 界面 


我 们 发 现 需要 的 Hadoop 类 库 已 经 自动 导入 了 ， 然 后 右键 点 击 刚刚 的 wordcount 工 程 项 目 ， 依 次 选择 src 呈 new 一 otherhttp://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/15128/OEBPS/Text/... 可 以 添加 Map 类 、Reduce 类 以 及 MapReduceDriver 类 ， 向 导 会 自动 生成 这 三 个 类 的 框架 (Framework) 。 向 里 面 填写 相关 
代码 ，Eclipse 会 自动 编译 用 户 编写 的 代码 。 接 着 用 户 可 以 右键 单 击 wordcount 工 程 ， 依 次 选择 MapReduceDriver 类 一 Run on Hadoop 来 运行 编写 的 Hadoop 应 用 ， 启 动 运行 后 ，Map/Reduce Eclipse 
1DE 环 境 会 将 用 户 编写 的 应 用 程序 自动 打包 成 jar 文 件 ， 并 部 署 到 Hadoop 环 境 中 去 运行 。 


下 面 以 单词 统计 为 例 来 具体 说 明 其 开发 步骤 。 
步骤 1 新 建 Mapper。 


选择 File 一 new 一 Mapper 命 令 ， 输 入 包 名 以 及 类 名 ， 如 图 12-8 所 示 。 


New Mapper 
Mapper 


业内 pe name is discouraged. By convention, Java 
type names usually start with an uppercase letter 


Source folder: Wordcountsrr Browse | 


Package: | nuoline ] 


Name: mapper mapper 


Superclass: RE -ae 


Interfaces: 他 org.apache.hadoop.mapred. Mappel 


图 12-8 ”新 建 WCMappet.java 


单 击 Finish 按 钮 ， 输 入 单词 统计 的 Mapper 代 码 : 


public class WCMapper 
extends Mapper<Object, Text, Text, IntWritable>{ 
private final static IntWritable one = new IntWritable(1); 
private Text word = new Text () ， 
public void map (Object key, Text value, Context context 
throws IOException, InterruptedException { 
StringTokenizer itr = new StringTokenizer (value.toString () ) ， 
while (itr.hasMoreTokens()) { 
word.set (itr.nextToken () ) ， 
context .write (word, one); 
} 
} 
} 


步骤 2 新建 Reducer， 选 择 FilenewReducer 命 令 ， 打 开 NewReducer 对 话 框 ， 输 入 包 名 以 及 类 名 ， 如 图 12-9 所 示 。 


NeW RedUucer 
Reducer 


外 Type name is discouraged. By convention, java 
type names Usually start with an uppercase letter 


sourcefolder [wordcountsre | 
Package: nuoline | Browse. = 


srs [| 


Interfaces: @ org.apache.hadoop.mapred.Reducer ds 


图 12-9 ”新 建 Reducer 


然后 单 击 Finish 按 钮 ， 接 着 添加 单词 统计 的 Reducer 代 码 : 


public class WCReducer 
extends Reducer<Text,IntWritable,Text,IntWritable> { 
private IntWritable result = new IntWritable(); 
public void reduce (Text key, lterable<IntWritable> values, 
Context context 
) throws IOException, InterruptedException { 


int sum = 0; 
for (IntWritable val : values) { 
sum += val.get (); 
} 
result.set (Sum) ， 
Context .write (key, result); 
} 
} 


步骤 3 ”建立 Map/Reduce 驱 动 ， 选 择 FilenewMap/Reduce Driver 命 令 ， 打开 NewMapReduceDriver 对 话 框 ， 如 图 12-10 所 示 。 


New MapReduce Driver 


MapReduce Driver 


Create a new MapReduce dnver. 


Source folder: | Wordcount/src 


Package: | nuoline 


Name: WordCount 


Superclass: ljava.lang .Object 


Interfaces: 


图 12-10 ”建立 Map/Reduce 了 驱动 


输入 驱动 类 名 之 后 单 击 Finish 按 钮 ， 然 后 输入 单词 统计 的 Map/Reduce 驱 动 代码 : 


public class WordCount { 
public static void main(String[] args) throws Exception { 
Configuration conf = new Configuration(); 

String[] otherArgs = new GenericOptionsParser (conf, 

args) .getRemainingArgs (); 

if (otherArgs.length != 2) {{ 
System.err.println("Usage: wordcount <in> <out>"); 
System.exit (2) ， 

} 

Job job = new Job (conf, “word count"); 

job.setJarByClass (WordCount .class); 

job.setMapperClass (WCMapper .class); 

job.setCombinerClass (WCReducer .class); 

job.setReducerClass (WCReducer .class); 

job.setOutputKeyClass (Text .class); 

job.setOutputValueClass (IntWritable.class); 

FileInputFormat.addIinputPath (job, new Path (otherArgs[0])); 

FileOutputFormat.setOutputPath (job, new Path (otherArgs[1])); 

System.exit (job.waitForCompletion(true) 0 : 1); 


Eclipse 的 MapReduce 环 境 会 自动 编译 用 户 编写 的 Java 程 序 ， 运 行 时 可 以 直接 使 用 Eclipse 的 run on Hadoop 功 能 提交 作业 执行 。 


在 运行 之 前 需要 将 HDFS 上 的 输入 数据 准备 好 ， 本 例 以 Hadoop 的 配置 文件 conf 作 为 输入 ， 首 先 需 要 使 用 Hadoop 的 fs 命令 把 数据 放 到 HDFS 输 入 目录 ， 命 令 如 下 : 


$HADOOP HOME/bin/hadoop fs -put SHADOOP HOME/conf input 


刷新 Eclipse 中 的 DFS 浏 览 文 件 ， 可 以 发 现 我 们 put 到 HDFS 中 的 输入 文件 ， 如 图 12-11 所 示 。 


Fim | - 总 上 二 1 | Ej 9 J | 出 | 可 bn 


-| 国 DFS Locations 
- 氏 (2) 
+ | 车 tmp (1) 
=| 车 :USer (2) 
+ E> hive (1) 
~- 芒 : Nuoline (1) 
- E> Input (13) 
国 capacity-scheduler.xml (3.8 Kb, r]) 
启 configuration.xs| (535.0 b, r1) 
人 core-site.xml (289.0 b, r]) 
于 hadoop-env.sh (2.2 Kb, r]) 
| hadoop-metncs.properties (1.2 Kb, rl) 
二 hadoop-policy mm (4.1 Kb, i 


二 下- = 


图 12-11 ”Eclipse 中 的 DFS 浏 览 文件 


然后 设置 Map/Reduce 单 词 统计 的 命令 行 参数 ， 右 键 单 击 单词 统计 WordCount 项 目 ， 依 次 选择 WordCountjava 一 run as 一 run on Hadoop， 打 开 Run on Hadoop 对 话 框 ， 如 图 12-12 所 示 。 


Run on Hadoop 


select Hadoop location 
Select a Hadoop location to run on. 


Select a Hadoop Server to run on. 
Define a new Hadoop server location 
夯 Choose an existing server from the list below 


图 12-12 ”提交 单词 统计 应 用 程序 作业 


选择 搭建 开发 环境 中 配置 的 Hadoop 集 群 来 运行 ， 这 里 选择 localhost， 然 后 单 击 Finish 按 钮 ， 之 后 Eclipse 环境 就 会 自动 将 用 户 的 应 用 程序 打包 并 提交 到 指定 的 集群 运行 。 


运行 完毕 之 后 ， 同 样 可 以 很 方便 地 使 用 Eclipse 中 的 DFs 浏 览 文件 功能 来 查看 计算 结果 ， 右 键 单 击 运行 结果 文件 part-r-00000(10.6kb，r3)， 在 快捷 菜单 中 选择 View 命令 ， 


显示 结果 如 图 12-13 所 示 。 


总 Project Explorer 中 


= | DFS Locations - 
加 | 而 盏 加 


= (2) "CoNnsole” 1 
+ BE trnp (1) "ff" 3 


"hadoop. root. Logger” . 
= EE User (2) “jks™. p dg99 下 


hiVe (1) “wm 3 
-| Bs nuoline (2) "mapred" 3 
Ce | 
+ BS input (13) sDefault 1 
= Ey OUtput (2) #dfs.classs=sorg.apache.hadoop.metrics 
+ Elogs (1) wii : \ pp es Tics. Log 
| | 让 
_ Part-r-00000 (10.6 Kb. r3) #jvm.class=org.apache.hadoop.metrics” 


Le wordcount um FileNanmps/tmn/ vieptrirt 看 本 
EF 


图 12-13 ”Eclipse 查看 HDFS 中 浏览 文件 功能 


从 图 12-13 中 可 以 看 到 输入 目录 下 文件 的 单词 统计 结果 ， 准 确 地 说 应 该 是 字符 频率 统计 结果 。 感 兴趣 的 用 户 可 以 在 此 程序 的 基础 上 进行 修改 ,将 标点 符号 以 及 特殊 字符 过 渡 掉 ， 只 统计 单词 ， 如 果 是 针 
对 中 文 的 单词 统计 ， 还 需要 加 入 分 词 模块 ， 需 要 在 统计 词 频 之 前 对 中 文 进行 词语 切 分 ， 有 兴趣 的 读者 可 以 试 试 写 出 基于 Map/Reduce 的 中 文 文本 集 的 词 频 统计 并 行程 序 。 


当然 单词 统计 结果 还 可 以 通过 Hadoop 的 Web 接 口 来 查看 : http://localhost:50070。 


进入 输出 目录 ， 结 果 显示 如 图 12-14 所 示 。 


二 v | ey E |http:/Mocalhost:50075/browsel 了 | |27IG 
MostVisitedr |@ Getting Started 国 Latest Headlines ™ 
避 HDFS:/user/nuoline/output/part-..， 只 


File: /user/nuoline/output/part-r-00000 


- 9 

"alice,bob 9 
"console”" 1 
"dfs” 3 
"hadoop. root. logger”. 
"KS". 本 

“ 1” 3 


图 12-14 通过 HDFS 的 Web 接 口 查看 运行 结果 


12.3 MapReduce Java API 编 程 


MapReduce Java API 是 用 户 编写 并 行 应 用 程序 最 直接 的 编程 接口 ， 主 要 包括 两 个 最 核心 的 基 类 : Mapper 和 Reducer， 通 常情 况 下 开发 者 只 需要 实现 相应 的 map 溯 数 和 reduce 遂 数 就 可 以 完成 并 行程 


序 的 开发 ; 同时 还 为 开发 者 提供 了 Partitioner 和 Combiner 接 口 以 方便 用 户 自 定义 实现 MapReduce 模 型 的 相关 功能 。 


12.3.1 “Mapper 编 程 接口 


Mapper 类 是 MapReduce 框 架 给 用 户 暴露 的 Map 编 程 接口 ， 用 户 在 实现 自己 的 Mapper 类 时 需要 继承 这 个 基 类 ， 并 至 少 重 写 其 中 的 map 闵 数 ，Mapper 基 类 接口 如 下 : 


public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT> { 


// map () 函数 在 任务 之 前 调用 
protected void setup (Context context) throws IOException, 
Interrupted Exception 
// NOTHING 


} 
// map 函数 
protected void map (KEYIN key, VALUEIN value, 

Context context) throws IOException, 
InterruptedException { 
Context .write ( (KEYOUT) key, (VALUEOUT) value); 


// map 函 数 任务 之 后 的 调用 
protected void cleanup (Context context) throws IOException, 
InterruptedException { 

// NOTHING 


} 
// Mapper 任 务 执行 流程 控制 
public void run(Context context) throws IOException, 
[nterruptedException { 
setup (context);} 
try 1 
while (context.nextKeyValue()) { 
map (context .getCurrentKey(), context.getCurrentValue(), 
context); 


} 
} finally { 
cleanup (context); 


} 
从 上 述 编程 基 类 可 以 看 到 MapReduce 框 架 给 用 户 提供 的 Mapper 编 程 接口 提供 了 4 个 接口 函数 。 


(1) setup(Context context) 


个 遂 数 是 在 map 遂 数 任务 之 前 调用 执行 的 ， 只 调用 执行 一 次 ,默认 情况 下 开发 者 不 需要 重 写 ， 如 果 需 要 在 Map 任 务 之 前 做 一 些 与 初始 化 相关 的 工作 则 可 以 重 写 这 个 函数 。 例 如 ， 用 户 可 以 在 这 个 遂 数 
中 获取 作业 传 入 的 自 定义 参数 以 及 读 取 本 地 词典 等 操作 。 这 里 以 自 定义 参数 的 初始 化 为 例 说 明 使 用 方法 ,假设 开发 者 通过 Configuration 设 置 了 一 个 变量 Cardinality， 实 现代 码 如 下 : 


Configuration conf = new Configuration(); 
conf.set ("Cardinality", args[2]); 


然后 就 可 以 通过 重 写 Mapper 类 中 的 setup 阔 数 来 读 取 ， 实 现代 码 如 下 : 


protected void setup (Context context) throws IOException, 
InterruptedException { 
c= Integer.parseInt ( 

Context .getConfiguration() .get ("Cardinality")); 


} 


(2) map(KEYIN key，VALUEIN value，Context context) 


这 个 函数 是 用 户 在 编写 自己 的 Mapper 类 时 需要 重 写 实现 的 ，KEYIN 是 key 类 型 ; VALUEIN 是 value 类 型 。 在 默认 的 文本 输入 格式 下 KEYIN 使 用 Object，VALUEIN 使 用 Text 类 型 即 可 。Context 是 
Mapper 基 类 的 一 个 内 部 类 ， 继 承 自 MapContext 类 ， 开 发 者 可 以 通过 Context 对 象 的 context.write(key，value) 来 提交 经 过 map 函 数 处 理 之 后 的 <key，value> 键 值 对 。 


(3) cleanup(Context context) 


cleanup 国 数 是 在 Map 任 务 之 后 调用 执行 的 ， 只 调用 执行 一 次 ， 在 默认 情况 下 也 不 需要 开发 者 重 写 这 个 国 数 。 如 果 需 要 开发 者 在 Map 任 务 执行 之 后 还 要 做 一 些 清理 工作 或 者 在 Map 任 务 执行 之 后 再 提交 
<key，value> 键 值 对 ， 则 可 以 重 写 cleanup(Context context) 函 数 来 实现 。 


(4) run(Context context) 
run(Context context) 函 数 是 用 于 控制 整个 Mapper 任 务 执行 流程 的 ， 在 默认 情况 下 先 执行 stup(Context context) 一 次 ， 然 后 对 每 个 输入 的 键 值 对 <key，value> 重 复 调用 执行 用 户 编写 的 map 函 数 ， 
最 后 调用 执行 一 次 cleanup(Context context) 函 数 。 通 常 也 不 需要 重 写 这 个 函数 ， 而 高 级 用 户 可 以 重 写 这 个 函数 来 自 定义 控制 Mapper 任 务 的 执行 流程 。 


12.3.2 Reducer 编程 接口 


在 Hadoop MapReduce 框 架 中 ，Reduce 包 括 三 个 主要 的 阶段 : Shuffle、Sort 和 Reduce。Shuffle 用 于 将 所 有 Mapper 的 输出 通过 HTTP 协 议 传 输 到 Reduce 端 ; Sort 负 责 对 每 个 来 自 于 各 个 Mapper 的 
输出 进行 排序 合并 ，Shuffle 和 Sort 这 两 个 功能 是 框架 本 身 的 默认 行为 ， 用 户 不 可 以 直接 控制 ，Hadoop MapReduce 框 架 只 暴露 给 用 户 最 后 一 个 阶段 Reduce 编 程 接口 一 一 Reducer 基 类 。 用 户 在 实现 自己 的 
Reducer 类 时 需要 继承 这 个 基 类 ， 并 至 少 重 写 其 中 的 reduce 阔 数 。Reducer 基 类 接口 代码 如 下 : 


public class Reducer<KEYIN,VALUEIN,KEYOUT,VALUEOUT> { 


// Reduce 任 务 之 前 调用 执行 一 次 
protected void setup (Context context) throws IOException, InterruptedException { 
// NOTHING 


} 
// 用 户 重 写 redcue 函 数 
protected void reduce (KEYIN key, lterable<VALUEIN> values, 
Context context) throws IOException, InterruptedException { 
for (VALUEIN value: values) { 

Context .write ( (KEYOUT) key, (VALUEOUT) value); 

} 

} 
// ”cleanup 函 数 ，redcue 任 务 之 后 调用 执行 一 次 
protected void cleanup (Context context) throws IOException, 
[nterruptedException { 
// NOTHING 


} 
// Reduce 任 务 流程 控制 
public void run (Context context) throws IOException, InterruptedException { 

setup (context); 
while (context .nextKey()) { 

reduce (Context .getCurrentKey(), context.getValues(), context); 
} 


cleanup (context); 


从 上 述 Reducer 基 类 接口 可 以 看 出 ， 和 Mapper 基 类 接口 类 似 ， 也 给 用 户 提 供 了 4 个 编程 接口 。 
(1) setup(Context context) 


有 context) 和 Mapper 的 setup(Context context) 功 能 类 似 ， 都 是 在 执行 任务 之 前 调用 ， 通 常会 做 一 些 作业 的 初始 化 工作 。 例 如 ， 在 Reducer 任 务 之 前 初始 化 变量 ， 加 载 本 地 词 
， 在 默认 情况 下 用 户 不 需要 重 写 。 


(2) reduce(KEYIN key, lterable<VALUEIN>values, Context context) 


reduce 函 数 是 Reducer 任 务 的 最 核心 函数 ， 用 户 在 编写 自己 的 Reducer 类 时 需要 重 写实 现 。KEYIN 是 Reducer 任 务 的 输入 Key 类 型 ， 也 就 是 Mappper 任 务 的 输出 Key 类 型 ，Mapper 的 输入 Key 类 型 和 
Reducer 的 输入 Key 类 型 两 者 需要 保持 一 致 ; VALUEIN 是 Reducer 任 务 的 输入 Value 类 型 ， 也 就 是 Mapper 任 务 的 输出 Value 类 型 ， 因 此 VALUEIN 和 Mapper 的 输出 Value 类 型 也 需要 保持 一 致 Context 是 
Reducer 基 类 的 一 个 内 部 类 ， 继 承 自 ReduceContext 类 ， 开 发 者 可 以 通过 Context 对 象 的 context.write(key，value) 来 提交 经 过 reduce 函 数 处 理 之 后 的 <key，value> 键 值 对 。 


在 Reducer 任 务 中 输入 的 <KEYIN key，lterable<VALUEIN>values> 键 值 对 会 迭代 调用 执行 用 户 编写 的 reduce 函 数 。 
(3) cleanup(Context context) 

这 个 函数 在 Redcue 任 务 执行 完 成 之 后 被 调用 执行 一 次 ， 主 要 功能 就 是 做 清理 工作 ， 默 认 情 况 下 不 需要 用 户 重 写 这 个 国 数 。 
(4) run(Context context) 


和 Mapper 的 run(Context context) 函 数 功 能 一 样 ，Reduce 的 这 个 函数 也 是 用 于 控制 Reduce 任 务 执行 流程 的 ， 默 认 还 是 先 调用 执行 setup(Context context) 一 次 ， 然 后 对 每 个 输入 的 键 值 对 
<key，value> 重 复 调 用 执行 用 户 编写 的 reducer 国 数 ， 最 后 调用 执行 cleanup(Context context) 一 次 。 在 通常 情况 下 也 不 需要 重 写 这 个 函数 ， 对 于 高 级 用 户 可 以 重 写 这 个 函数 来 自 定义 控制 Reducer 任 务 的 
执行 流程 。 


12.3.3 ”驱动 类 编写 


用 户 通过 上 述 的 Mapper 和 Reducer 基 类 接口 就 可 以 实现 自己 的 Mapper 类 和 Reducer 类 。 除 此 之 外 还 需要 实现 一 个 驱动 类 ， 在 这 个 驱动 类 中 需要 指定 用 户 作 业 的 Mapper 类 和 Reduce 类 、 输 入 路 径 和 输 
出 路 径 、 作 业 配 置 参数 ， 以 及 与 调度 相关 的 参数 。 通 过 驱动 类 ， 用 户 的 并 行 应 用 就 可 以 和 MapReduce 框 架 进 行 交互 。 通 用 的 驱动 类 实现 代码 如 下 : 


public class MyDriver { 


public static void main(String[] args) throws Exception { 
// 创建 Hadoop 作 业 配 置 Configuration 对 象 
Configuration conf = new Configuration(); 
String[] otherArgs = new GenericOptionsParser (conf, args) .getRemainingArgs () ， 
if (otherArgs.length != 2) { 
System.err.println("Usage: wordcount <in> <out>"); 
System.exit (2) ， 


/ / 创建 作业 对 象 

Job job = new Job (conf, “word count"); 
/7 / 设置 驱动 类 的 类 ss 名， 需要 打包 为 Jar 文件 
job.setJarByClass (MyDriver.class); 

// 设置 实现 的 Mapper 类 
job.setMapperClass (YourMapper .class); 
// 设置 Combiner 类 
job.setCombinerClass (YourReducer .clLass) ， 
// 设置 Reducer 类 

job.setReducerClass (YourReducer .class); 
// 设置 输出 key 的 类 型 
job.setOutputKeyClass (Text .class); 

// rd rn 

job.setOutputValueClass (IntWritable.class); 
/7 没入 输入 数据 路 和 
FileInputFormat.addIinputPath (job, new Path (otherArgs[0])); 
// 设置 输出 数据 路 径 

FileOutputFormat.setOutputPath (job, new Path (otherArgs[1])); 
System.exit (job.waitForCompletion(true) 0 : 1); 


一 


从 上 述 实现 代码 可 以 看 出 驱动 类 编写 的 主要 步骤 如 下 。 
步骤 1 创建 作业 配置 Configuration 对 象 。 


创建 作业 配置 Configuration 对 象 ， 通 过 这 个 对 象 的 set(string name，String value) 国 数 就 可 以 设置 Hadoop 的 作业 配置 参数 。 例 如 ， 设 置 作业 调度 优先 级 为 HHGH， 实 现代 码 如 下 : 


conf .set ("mapred.job.priority", HIGH) 


步骤 2 ”创建 作业 对 象 并 设置 Mapper 类 和 Reducer 类 ， 以 及 输出 key 和 value 的 类 型 等 


如 果 用 户 没 有 设置 Mapper 类 ， 则 默认 使 用 Hadoop 内 置 的 IdentityMapper 类 ， 这 个 类 对 输入 数据 不 会 做 任何 处 理 ， 仅 仅 是 输入 什么 就 输出 什么 ， 如 果 用 户 也 没有 设置 Reducer 类 ， 同 时 又 将 Reduce 的 
数目 设置 为 非 0， 那 么 系统 也 会 默认 使 用 IdentityReducer 作 为 Reducer。ldentityReducer 在 功能 上 和 IdentityMapper 一 样 ， 也 是 不 会 对 数据 做 任何 处 理 的 ， 即 输入 什么 就 输出 什么 。 


步骤 3 ”设置 输入 /输出 路 径 。 


通过 FilelnputFormat 类 的 addlnputPath 设 置 输入 路 径 ， 通 过 setOutputPath 设 置 输出 路 径 。 


在 job.waitForCompletion(true) 国 数 中 ， 首 先 调用 submit( 国 数 提交 作业 到 JobTracker， 然 后 等 待 info.waitForCompletion(0 返 回 作 业 执 行 结果 。 


12.3.4 ”编译 运行 


编写 完 MapReduce 应 用 程序 之 后 还 需要 编译 并 打包 为 jar 文 件 ， 然 后 才能 提交 作业 到 Hadoop 集 群 。 假 设 用 户 开 发 实现 的 类 文件 为 : AppMapperjava、AppReducerjava、AppDriverjava， 编 译 命 
如 下 : 
#!/bin/bash 


##Hadoop 客 户 端 安装 目录 
HADOOP HOME=/home/nuoline/hadoop-client 


LIB=$ {HADOOP HOME}/hadoop-core-1.0.4.jar 
mkdir app 
javac -cp $LIB -d app* .java 

jar -cvf /usr/nuoline/app.jar -c app/ 


编译 为 jar 文 件 之 后 就 可 以 使 用 Hadoop 的 提交 命令 进行 提交 ， 命 令 如 下 : 
hadoop jar app.jar [mainClass] args 


这 个 命令 最 终 会 调用 org.apache.hadoop.util.RunjJar 类 提交 用 户 的 作业 到 Hadoop 集 群 的 JobTracker。 作 业 提 交 成 功 后 会 返回 一 个 Tracking URL， 用 户 通 过 这 个 URL 就 可 以 在 Web 界 面 监控 运行 过 


12.4 ”压缩 功能 使 用 


12.4.1 Hadoop 数 据 压 缩 


在 Hadoop 处 理 系 统 中 ， 中 间 数 据 讨 缩 是 用 户 不 可 见 的 、 完 全 透明 的 ， 和 输入 /输出 数据 格式 无 关 。 通 常 使 用 两 种 输入 /输出 数据 格式 : 文本 Text 格 式 或 二 进 制 SequenceFile 格 式 。 它 们 的 区 别 为 : Text 
格式 支持 输出 文件 整体 压缩 ， 输 出 文件 带 有 .gz/.lzma 等 后 缀 ， 可 以 作为 Map 输 入 且 自 动 解 讨 ， 不 支持 split 的 压缩 算法 ， 一 个 压缩 文件 只 能 被 一 个 Map 处 理 ; SequenceFile 是 一 种 支持 输出 文件 内 部 自己 压 
缩 的 文件 类 型 ， 只 是 输出 文件 没有 .gz/.lzma 后 级 ， 但 是 这 种 类 型 的 压缩 文件 可 以 直接 作为 Map 的 输入 且 自 动 解压 ， 而 且 一 个 文件 可 以 被 多 个 Map 处 理 。 


使 用 压缩 不 仪 仪 可 以 减少 存储 空间 ， 更 重要 的 是 可 以 提高 作业 的 处 理性 能 。Hadoop 的 一 个 很 大 瓶颈 就 是 /0 问题 ，Hadoop 处 理 数据 的 特点 就 是 尽量 移动 计算 到 数据 上 ， 而 不 是 移动 数据 到 计算 上 。 在 
运行 作业 时 常常 会 发 现 Map 往 往 很 快 ， 而 Reduce 却 总 是 很 慢 。 这 是 因为 Map 数 据 处 理 时 ， 计 算 节 点 和 数据 的 块 节点 相同 或 者 很 近 ， 而 Reduce 需 要 多 个 Map 的 输出 作为 输入 ， 就 需要 将 Map 数 据 传输 到 
Reduce 节 点 ， 如 果 使 用 了 压缩 ， 则 将 数据 传输 到 Reduce 节 点 ， 这 样 速度 就 会 加 快 ， 从 而 提高 性 能 。 


12.4.2 ”压缩 特征 与 性 能 


目前 主流 的 Hadoop 发 行 版 主要 支持 5 种 压缩 类 型 ， 具 体 的 压缩 类 型 如 表 12-1 所 示 。 


表 12-1 ”Hadoop 数 据 压缩 类 型 表 


DEFLATE org.apache.hadoop.1i0.compress.DefaultCodec 合 


gz1p org.apache.hadoop.1i0.compress.GzipCodec . 合 
bzip2 后 
I 合 


表 12-1 中 的 压缩 类 型 都 各 有 自己 的 特点 ， 下 面 分 别 进 行 介绍 。 
1. 压 缩 扩展 名 


使 用 不 同 的 压缩 算法 ， 相 应 的 压缩 文件 有 不 同 的 压缩 扩展 名 ，Hadoop 正 是 通过 文件 后 缀 名 来 对 压缩 格式 进行 识别 的 ， 并 且 可 以 对 输入 压缩 文件 进行 自行 解压 ， 这 些 对 用 户 都 是 透明 的 ， 用 户 无 须 关 
心 。 需 要 说 明 的 是 ， 压 缩 文件 的 扩展 名 是 针对 文本 格式 的 数据 的 ， 而 sequenceFile、MapFile 等 二 进 制 文件 格式 是 没有 压缩 扩展 名 的 ， 这 是 针对 输出 二 进 制 文件 的 内 部 压缩 而 不 是 针对 整个 文件 压缩 的 。 


2.Splittable 特 征 


有 些 压 缩 算法 是 支持 Splittable 的 ， 有 些 则 不 支持 ， 所 谓 支 持 Splittable 是 指 压缩 后 Hadoop 还 可 以 进行 正常 的 切 分 块 。 比 如 一 个 8GB 的 文件 在 没有 压缩 之 前 需要 32 个 Map 来 处 理 ( 块 为 256MB) ， 如 果 
将 该 文件 压缩 为 2GB， 则 在 压缩 后 只 需要 8 个 Map 来 处 理 。 而 如 果 压 缩 算法 本 身 不 支持 splittable， 整 个 2GB 文 件 仅 能 由 一 个 Map 来 处 理 ， 这 样 就 使 得 并 行 处 理性 能 大 大 降低 ， 因 此 在 选择 压缩 算法 时 尽量 选 
择 支 持 splittable 的 压缩 算法 来 压缩 。 


在 表 12-1 中 ， 直 接 支持 splittable 的 算法 是 bzip2， 对 于 LZO 压 缩 ， 常 用 的 有 LzoCodec 和 lzopCodec， 可 以 对 sequenceFile 和 TextFile 进 行 压 缩 ， 但 是 需要 注意 的 是 ， 在 对 TextFile 压 缩 后 ，Mapper 默 
认 不 能 对 压缩 后 的 文件 进行 splittable 操 作 ， 需 要 对 该 LZO 压 缩 文件 进行 预 处 理 生 成 索引 lzo.index 文 件 。 建 立 索引 时 可 以 使 用 LZO 工 具 com.hadoop.compression.lzo.LzopCodec 来 生成 ， 索 引 完 成 后 ， 在 
LZO 压 缩 文件 的 相同 目录 下 生成 ,|zo.index 文 件 ， 然 后 Mapper 在 处 理 时 才 可 以 进行 split 切 分 。 


3. 压 缩 /解压 缩 性 能 


所 有 的 压缩 算法 都 需要 考虑 时 间 和 空间 的 权限 ， 在 性 能 上 更 快 的 压缩 和 解压 缩 速 度 通常 会 耗费 更 多 的 空间 。 算 法 zip 和 gzip 使 用 的 压缩 算法 是 LZ77 的 一 个 变种 ;bzip2 是 一 个 基于 Burrows-Wheeler 变 换 
的 无 损 压 缩 算法 ， 压 缩 效 果 比 传统 的 LZ77/LZ78 压 缩 算法 好 ; bzip2 和 gzip 是 比较 消耗 CPU 的 ， 但 是 压缩 比 相 对 较 高 。 在 压缩 算法 中 ，gzip 和 zip 是 通用 的 压缩 工具 ， 在 时 间 / 空 间 处 理 上 相对 平衡 ，gzip2 压 
缩 比 gzip 和 zip 更 有 效 ， 但 速度 较 慢 ， 而 且 bzip2 的 解压 缩 速度 快 于 它 的 压缩 速度 。LZO 是 内 置 轻 量 级 压缩 ， 通 常用 于 对 Map 的 中 间 结 果 输 出 ， 建 议 使 用 LZO 进 行 压 缩 ， 对 于 整个 作业 的 输出 建议 使 用 gzip 进 
行 压 缩 以 方便 本 地 查看 。gzip、LZO、Snappy 压 缩 性 能 的 对 比如 表 12-2 所 示 。 


表 12-2 压缩 算法 性 能 对 比 


算 Encoding Man DecodngNBX 


Snappy a A 409 


上 > 


12.4.3 ”本 地 压缩 库 


压缩 可 以 有 效 地 减少 数据 传输 ， 提 高 MapReduce 的 处 理 效率 ， 同 时 减少 存储 空间 的 占用 ， 但 是 鉴于 压缩 和 解压 缩 的 性 能 问题 以 及 某 些 Java 类 库 的 缺失 ，Hadoop 提 供 了 一 些 压 缩 算法 的 本 地 实现 。 相 比 
于 内 置 的 Java 实 现 ， 使 用 本 地 库 可 以 减少 压缩 和 解压 缩 的 时 间 ， 这 些 本 地 库 保存 在 Hadoop 的 一 个 独立 的 动态 链接 库 里 。 但 并 不 是 所 有 的 压缩 算法 都 有 本 地 实现 ， 目 前 Hadoop 支 持 的 压缩 本 地 库 有 : zlib、 


gzip、lzo。 


Hadoop 带 有 预 置 的 32 位 和 64 位 Linux 的 本 地 压缩 库 ， 位 于 $HADOOP_HOMEAibynative 目 录 下 ， 建 议 用 户 针 对 自己 的 平台 重新 构建 本 地 压缩 库 ， 编 译 使 用 ant 进 行 ， 将 build.xml 文 件 中 的 参数 
compile.native 设 置 为 true， 这 样 就 可 以 生成 Hadoop 本 地 库 : 


ant -Dcompile.native=true <target> 


由 于 并 不 是 所 有 用 户 都 需要 Hadoop 本 地 库 ， 所 以 在 默认 情况 下 Hadoop 不 生成 本 地 库 。 编 译 完成 之 后 可 以 在 下 面 的 路 径 中 查看 新 生成 的 Hadoop 本 地 库 : 


build/native/<platform>/1ib 


其 中 ，< platform> 的 系统 属性 的 组 合 是 : ${os.name}-${os.arch}-${sun.arch.data.model}， 例 如 Linux-i386-32 或 Linux-amd64-64。 


人 @ 注 意 生成 Hadqoop 本 地 库 的 目标 平台 上 必须 安装 gzip、z1ib 和 1zo 开 发 包 ; 但 是 如 果 只 希望 使 用 其 中 一 个 ， 那 么 部 署 时 安装 其 中 任何 一 个 都 可 以 。 在 目标 平台 上 生成 及 部 署 Hadoop 本 地 库 时 ， 都 需要 根据 32/64 位 JVM 选 取 对 
应 的 32/64 位 zlLibp/1Lzo 软 件 包 。 


在 使 用 本 地 压缩 库 时 ， 通 过 系统 属性 -Djava.library.path=<path> 来 确认 Hadoop 本 地 库 是 否 包含 在 库 路 径 里 。 在 默认 情况 下 ，Hadoop 会 在 它 运 行 的 平台 上 查找 本 地 库 ， 如 果 发 现 就 自动 加 载 。 这 意 
味 着 不 必 更 改 任何 设置 就 可 以 使 用 本 地 库 。 在 某 些 情况 下 ， 可 能 希望 禁用 本 地 库 ， 比 如 在 调试 与 压缩 相关 的 问题 时 。 为 此 ， 将 属性 hadoop.native.lib 设 置 为 false， 即 可 确保 内 置 的 Java 等 同 内 置 实现 被 使 用 
(可 用 的 情况 下 ) 。 


用 户 也 以 通过 DistributedCache 下 载 本 地 共享 库 ， 并 分 发 和 建立 库 文件 的 符号 链接 ， 主 要 步骤 如 下 。 


步骤 1 首先 复制 库 文件 到 HDFS: 


bin/hadoop fs -copyFromLocal mylib.so.1 /libraries/mylib.so.!] 


步骤 2 ”启动 作业 时 包含 以 下 代码 : 


DistributedCache.createSymlink (conf); 
DistributedCache.addCacheFile ("hdfs:// host:port/libraries/mylib.so.1#mylib.so", conf); 


步骤 3 Map/Reduce 任 务 中 包含 以 下 代码 : 


System.loadLibrary ("mylib.so"); 


通过 上 述 3 个 步骤 就 可 以 实现 分 发 库 文件 ， 并 从 MapReduce 任 务 中 装载 库 文 件 。 


12.4.4 ”使 用 压缩 


前 面 几 个 小 节 的 内 容 对 Hadoop 中 的 压缩 进行 了 介绍 ， 那 么 如 何在 MapReduce 作 业 中 使 用 压缩 以 提高 运行 效率 并 减少 存储 空间 呢 ? 下 面 进行 使 用 方法 的 介绍 。 


1. 对 Map 任 务 输出 结果 的 压缩 


即使 MapReduce 应 用 使 用 非 压缩 的 数据 来 读 取 和 写 入 ， 我 们 也 可 以 受益 于 压缩 Map 阶 段 的 中 间 输 出 。 因 为 Map 作 业 的 输出 会 被 写 入 磁盘 并 通过 网 络 传输 到 Reducer 节 点 ， 所 以 如 果 使 用 LZO 类 的 快速 
压缩 ， 能 得 到 更 好 的 性 能 ， 因 为 传输 的 数据 量 大 大 减少 了 。 代 码 如 下 : 


conf.setCompressMapOutput (true); 
conf.setMapOutputCompressorClass (GzipCodec .class); 


用 户 也 可 以 通过 参数 控制 启用 Map 输 出 压缩 并 设置 压缩 格式 。Map 输 出 压缩 的 控制 参数 ， 如 表 12-3 所 示 。 


表 12-3 ”Map 输出 压缩 的 控制 参数 


参 数 值 类 型 默 认 值 朱 述 
mapred.compress.map.output Map 输出 是 否 压缩 


org.apache.hadoop.1o. 


mapred.map.output.compression.codec Class 、 必 置 床 缩编 码头 
compress.DefaultCodec 


通过 表 12-3 中 的 参数 控制 Map 输 出 压缩 的 代码 如 下 : 


Configuration conf = new Configuration () ， 

conf.setBoolean ("mapred.compress.map.output", true); 

conf.setClass ("mapred.map.output.compression.codec", GzipCodec.class, 
CompressionCodec.class); 


在 Streaming 接 口中 可 以 直接 通过 -D 参 数 指定 ， 代 码 如 下 : 


-D mapred.compress.map.output=true 
-D mapred.map.output.compression.codec=GzipCodec.class 


2. 对 MapReduce 作 业 输 出 的 压缩 


对 整个 作业 的 输出 进行 压缩 可 以 有 效 地 减少 存储 空间 ， 和 Map 输 出 压缩 的 使 用 方法 类 似 ， 可 以 通过 FileOutputFormat 的 静态 方法 进行 设置 。 示 例 代码 如 下 : 


FileOutputFormat.setCompressOutput (job, true); 
FileOutputFormat.setOutputCompressorClass (job, GzipCodec.class); 


用 户 也 可 以 通过 压缩 参数 进行 控制 。MapReduce 作 业 输 出 的 压缩 参数 ， 如 表 12-4 所 示 。 


表 12-4 MapReduce 作 业 输 出 的 压缩 参数 


参数 默 认 值 描述 
mapred.output.compress Map 输出 是 否 压 缩 


org.apache.hadoop.1o. 


mapred.output.compression.codec Class 设置 压缩 编 公 类 
compress.DefaultCodec 


RECORD RECORD 或 BLOCK 


如 12-4 表 所 示 ， 要 压缩 MapReduce 作 业 的 输出 ， 需 要 在 作业 配置 文件 中 将 参数 mapred.output.compress 属 性 设置 为 true。 将 mapred.output.compression.codec 属 性 设置 为 自己 打算 使 用 的 压缩 编 
码 /解码 器 的 类 名 。 用 户 也 可 以 通过 设置 mapred.output.compression.type 属 性 来 控制 压缩 类 型 ， 默 认为 RECORD ， 表 示 压 缩 单独 的 记录 。 如 果 将 它 改 为 BLOCK， 则 可 以 压缩 一 组 记录 ， 由 于 BLOCK 压缩 
有 更 好 的 压缩 比 ， 因 此 推荐 读者 使 用 BLOCK。 


mapred.output.compression.type 


12.5 ”排序 应 用 


12.5.1 ”Hadoop 排 序 问题 


排序 是 Hadoop 中 的 一 个 非常 核心 的 功能 。 在 Hadoop 中 排序 主要 发 生 在 两 个 地 方 : 第 一 个 就 是 Map 羡 的 排序 ， 在 MapTask 任 务 的 Spill 阶 段 中 根据 partition 分 区 号 对 <key，value> 键 值 对 以 Key 为 键 值 
进行 排序 ;第 二 个 就 是 Reduce 端 的 排序 ， 在 ReduceTask 任 务 中 经 过 shuffle 阶 段 之 后 每 一 个 Mapper 复 制 来 的 输出 数据 是 局 部 排序 的 ， 因 此 在 Merge 的 同时 还 会 经 过 多 次 归并 排序 ， 最 终生 成 整体 按照 key 
有 序 的 结果 数据 。 这 两 种 排序 功能 是 Hadoop 框 架 本 身 自 带 的 ， 在 相关 工作 任务 中 可 以 有 效 地 利用 Hadoop 框 架 的 排序 来 满足 一 定 的 排序 需求 ， 例 如 仪 需要 对 每 个 数据 分 块 按照 key 为 键 进行 排序 时 可 以 启动 
一 个 只 使 用 默认 Mapper 的 任务 来 完成 ， 然 而 在 实际 工作 中 往往 还 需要 对 数据 进行 二 次 排序 或 者 全 局 排序 ， 这 时 可 以 应 用 自 定义 Partitioner 来 实现 ， 下 面 分 别 进行 介绍 。 


12.5.2 ”二 次 排序 


所 谓 二 次 排序 是 指 先 按照 第 一 字段 排序 ， 然 后 再 对 第 一 字段 相同 的 行 按照 第 二 字段 排序 。 在 开发 应 用 中 往往 有 这 样 的 需求 : 需要 对 key 相 同 的 所 有 value 再 进行 按照 某 个 字段 排序 输出 。 通 常 可 以 在 
reduce( 函 数 中 自行 实现 ， 但 是 在 value 过 多 的 情况 下 会 出 现 内 存 溢 出 的 问题 ， 因 此 需要 借助 框架 本 身 的 排序 功能 来 实现 二 次 排序 的 需求 。 实 际 上 在 Map 端 的 排序 中 是 先 按照 partition 分 区 号 排序 ， 然 后 再 按 


KeyFieldBasedPartitioner， 仅 仪 通过 参数 控制 就 可 以 实现 二 次 排序 ， 控 制 参数 如 表 12-5 所 示 。 


表 12-5 ”KeyFieldBasedPartitioner 参 数 表 


map.output.key.field.separator 设置 key 内 的 字段 分 隔 符 
num.key.fields.forpartition 设置 key 内 前 几 个 字段 用 来 做 partition 
mapred.text.key.partitioner.options 高 级 目 定 义 参 数 


从 表 12-5 中 可 以 看 到 ，KeyFieldBasedPartitioner 有 三 个 参数 ， 前 两 个 是 基本 参数 ， 第 三 个 是 高 级 参数 ， 使 用 KeyFieldBasedPartitioner 实 现 二 次 排序 问题 的 本 质 就 是 如 何 结合 使 用 partition 的 key 和 用 
于 排序 的 key 来 得 到 二 次 排序 的 目的 。 


首先 介绍 基本 参数 的 使 用 。 假 设 作业 的 输入 每 条 数据 有 三 个 字段 ， 字 段 之 间 使 用 冒号 “: ”作为 分 隔 符 ， 处 理 的 要 求 是 先 按照 第 一 个 字段 排序 ， 第 一 字段 相同 的 再 按照 第 二 字段 排序 。 对 于 这 样 的 需求 
可 以 这 样 实现 : 使 用 第 一 字段 做 partition， 这 样 就 可 以 保证 第 一 字段 相同 的 都 在 一 个 Reduce 中 ， 然 后 设置 前 两 个 字段 整体 做 Mapper 的 输出 KEY， 也 就 是 在 框架 排序 阶段 是 以 前 两 字段 进行 排序 的 ， 由 于 第 
一 字段 相同 都 在 一 个 partition， 又 使 用 前 两 列 进行 排序 相当 于 先 按照 第 一 字段 排序 ， 然 后 第 一 字段 相同 的 再 按照 第 二 字段 排序 ， 这 样 设置 用 于 partition 的 key 和 用 于 排序 的 key 就 可 以 实现 二 次 排序 的 目的 。 
相关 参数 实现 代码 如 下 : 


-partitioner \ 
org.apache.hadoop.mapred.1ib.KeyFieldBasedPartitioner \ 
-D stream.num.map.output. key.fields=2 

-D stream.map.output.field.separator=: \ 

-D map.output. key.field.separator=: \ 

-D num. key.fields.for.partition=] 


在 上 述 实现 代码 中 ， 首 先 需要 使 用 参数 partitioner 来 指定 KeyFieldBasedPartitioner 作 为 MapReduce 的 Partitioner 实 现 。 参 数 stream.num.map.output.key.fields 用 于 指定 前 两 字段 作为 Mapper 的 输 
出 key， 用 于 排序 ; 参数 stream.map.outputfield.separator 用 于 指定 输入 数据 的 <key，value> 分 隔 符 ， 这 两 个 参数 是 Partitioner 的 基本 控制 参数 。 然 后 使 用 KeyFieldBasedPartitioner 的 控制 参数 来 设置 
用 于 控制 partition 的 key。 


接着 介绍 一 下 高 级 参数 的 使 用 。 在 实际 工作 中 往往 也 有 这 样 的 需求 : 需要 指定 key 中 的 某 个 字段 或 某 几 个 字段 来 做 partition， 同 时 还 希望 排序 时 不 要 按照 默认 的 字母 排序 而 是 按照 数字 大 小 或 者 自 定义 
排序 规则 。 这 样 的 需求 显然 很 难 通 过 基本 参数 实现 ， 因 此 就 需要 使 用 KeyFieldBasedPartitioner 的 高 级 参数 mapred.text.key.partitioner.options 来 实现 。 


可 以 认为 参数 mapred.text.key.partitioner.options 是 基本 参数 num.key.fields.for.partition 的 高 级 版 ， 不 仅 可 以 指定 key 中 的 前 几 个 字段 用 做 partition ， 而 且 还 可 以 单独 指定 key 中 某 个 字段 或 者 某 几 
个 字段 一 起 做 partition。 代 码 如 下 : 


-D mapred.text.key.partitioner.options=-posl[,pos2] 


上 述 代码 表示 从 pos1 字 段 的 起 始 字符 开始 到 pos2 字 段 的 结束 字符 来 做 partition ， 其 中 pos2 是 可 选 的 ， 如 果 没 有 指定 pos2 的 值 ， 则 默认 表示 为 到 pos1 字 段 末 尾 字 符 截 止 。 例 如 ， 指 定 key 中 的 第 一 个 字 
段 来 做 partition， 实 现代 码 如 下 : 


-D mapred.text.key.partitioner.options=-1,1 


需要 使 用 key 中 的 第 二 个 字段 和 第 三 个 字段 一 起 做 partition， 参 数 使 用 如 下 : 


-D mapred.text.key.partitioner.options=-2,3 


KeyFieldBasePartitioner 的 使 用 只 会 影响 分 桶 并 不 会 直接 影响 排序 。 例 如 ， 指 定 了 自 定义 partition 参 数 mapred.text.key.partitioner.options=-2，3， 那 么 key 中 第 二 字段 和 第 三 字段 相同 的 记录 一 定 
会 被 分 桶 到 相同 的 Reduce 中 。 


四 注意 参数 mapredq.text.key.partitioner.options 和 num.key.fielqds.for.partition 不 需要 一 起 使 用 ， 一 起 使 用 则 以 num.key.fielqs .for.partition 为 准 。 


12.5.3 ”比较 器 和 组 合 排序 


12.5.2 节 介绍 了 通过 KeyFieldBasePartitioner 的 使 用 就 可 以 更 加 灵活 地 自 定义 partition， 从 而 实现 二 次 排序 ， 然 而 Hadoop 框 架 在 默认 情况 下 通过 调用 key 的 compareTo0 函 数 对 key 进 行 比较 来 排序 ， 
对 于 文本 类 型 的 key， 默 认 会 将 key 作 为 一 个 整体 的 字 节 数组 来 进行 比较 ， 也 就 是 默认 使 用 依据 key 整 体 的 字典 序 进行 排序 。 如 果 我 们 希望 按照 key 中 的 某 些 字段 基于 数字 比较 或 自 定义 比较 来 排序 ， 那 么 用 户 
就 需要 实现 自己 的 比较 器 Comparator 类 ， 对 此 Hadoop 提 供 了 原生 的 比较 器 接口 RawComparator<T> 用 于 序列 化 字 节 间 的 比较 ， 该 接口 允许 其 实现 直接 比较 数据 流 中 的 记录 ， 而 无 须 反 序列 化 为 对 象 。 


笠 运 的 是 ，Hadoop 有 一 个 内 置 的 KeyFieldBaseComparator 类 ， 这 个 比较 器 相当 于 一 个 可 以 灵活 设置 比较 位 置 的 高 级 比较 器 ， 对 于 实际 工作 中 的 大 多 数 需求 都 可 以 通过 使 用 相应 的 参数 控制 来 实现 组 
合 排序 。 


KeyFieldBaseComparator 类 有 一 个 控制 参数 mapred.text.key.comparator.options， 该 参数 的 使 用 类 似 于 Linux 命 令 sort 的 使 用 方法 。 下 面 通过 一 个 示例 来 说 明 如 何 结合 KeyFieldBasePartitioner 和 
KeyFieldBaseComparator 来 实现 组 合 排序 。 


组 合 排序 需求 : 数据 中 每 条 记录 有 三 个 字段 ， 分 隔 符 为 冒号 “: ”， 以 前 三 字段 整体 为 key， 需 要 以 第 一 字段 做 partition ， 排 序 优先 依据 第 二 字段 字典 正 序 ， 第 三 字段 数字 逆序 进行 组 合 排序 。 
Streaming 应 用 实现 代码 如 下 : 


SHADOOP HOME/bin/hadoop streaming \ 

-input $input path \ 

-output $output path \ 

-mapper cat \ 

-partitioner \ 
org.apache.hadoop.mapred.1ib.KeyFieldBasedPartitioner \ 
D mapred.output. key.comparator.class= 
rg.apache.hadoop.mapred.1ib.KeyFieldBasedComparator \ 
D stream.num.map.output. key.fields=3 \ 
stream.map.output.field.separator=: \ 


D 
D map.output.key.field.separator=: \ 

D mapred.text.key.partitioner.options=-k1l,1 \ 
D 

也 


mapred.text. key.comparator.options="-k2,2 —k3nr" \ 
mapred.reduce.tasks=10 


| 1 1 1 1 10O 1 


在 上 述 代码 中 ， 参 数 partitioner 用 于 指定 KeyFieldBasedPartitioner 实 现 ， 参 数 mapred.text.key.partitioner.options 指 定 用 于 哈 希 分 桶 的 partition， 这 里 使 用 第 一 列 来 分 桶 ， 参 数 
mapred.output.key.comparator.class 用 于 指定 比较 器 Comparator 的 实现 为 KeyFieldBasedComparator， 参 数 mapred.text.key.comparator.options 用 来 设置 用 于 排序 的 key 以 及 排序 比较 器 的 参数 。 对 
于 使 用 Java API 的 用 户 当然 也 可 以 直接 使 用 JobConf 对 象 的 setOutputKeyComparatorClass 来 设置 比较 器 Comparator 的 实现 类 等 。 


12.5.4 全 局 排序 


从 Hadoop 的 原理 可 以 知道 每 个 Map 的 输出 都 会 进行 排序 ， 在 Reduce 端 也 会 对 来 自 各 个 Map 的 数据 分 片 进行 归并 排序 ， 从 而 可 以 保证 每 个 Reduce 的 输出 是 以 key 为 键 局 部 有 序 的 。 如 果 用 户 需要 实现 
整个 作业 输出 全 局 有 序 的 需求 ， 最 简单 直接 的 方法 就 是 只 使 用 一 个 Reduce， 这 样 最 终 作 业 输 出 自然 就 全 局 有 序 了 ， 但 是 一 个 Reduce 的 情况 相当 于 对 于 ReduceTask 任 务 并 没有 并 行 度 可 言 ， 同 时 Reduce 端 
的 数据 处 理 压力 会 很 大 ， 在 输出 数据 比较 大 的 情况 下 有 内 存 溢 出 或 者 运行 缓慢 的 情况 发 生 。 


那么 如 何 利用 Hadoop 内 在 的 排序 原理 来 实现 全 局 有 序 呢 ”这 里 可 以 借鉴 二 次 排序 和 组 合 排序 的 基本 思路 ， 如 果 可 以 保证 在 partition 分 桶 时 不 同 大 小 区 间 段 的 key 被 分 桶 到 相应 的 Reduce 端 ， 同 时 不 同 
区 间 key 的 范围 之 间 是 有 序 的 ， 例 如 key 值 在 [1，100] 的 被 分 桶 到 第 一 个 Reduce，key 值 在 [101，200] 的 被 分 桶 到 第 二 个 Reduce， 依 此 类 推 ， 由 于 每 个 Reduce 内 部 可 以 保证 局 部 有 序 ， 因 此 整体 自然 就 全 局 
有 序 了 。 这 种 思路 的 实现 就 是 Hadoop 内 置 的 TotalOrderPartitioner 所 要 解决 的 问题 了 ，Hadoop 的 org.apache.hadoop.examples 包 下 的 Sort 工 具 就 是 使 用 的 TotalOrderPartitioner 来 实现 全 局 排序 的 ， 
这 里 以 内 置 Sort 工 具 为 例 进行 介绍 。 


TotalOrderPartitioner 会 依赖 一 个 PartitionFile 分 桶 文件 ， 这 个 文件 的 作用 就 是 对 输入 数据 的 key 进 行 采 样 ， 并 且 将 用 于 分 桶 的 key 从 小 到 大 进行 排序 ， 并 依据 key 的 类 型 创建 一 个 查找 树 ， 这 样 
TotalOrderPartitioner 在 分 桶 时 可 以 高 效 地 查找 到 记录 所 对 应 的 Reduce 分 桶 号 。PartitionFile 分 桶 文件 的 产 出 由 采样 类 提前 生成 ，Hadoop 内 置 有 三 种 采用 类 : Splitsampler、Randomsampler 和 
IntervalSampler， 在 Sort 全 局 排序 工具 中 使 用 的 是 RandomSampler 随 机 采用 方法 ，RandomSampler 会 遍历 所 有 数据 来 随机 采样 ， 它 有 三 个 参数 : 第 一 个 参数 表示 key 会 被 选中 的 概率 ; 第 二 个 参数 是 选 
取 的 样本 samples 数 目 ; 第 三 个 参数 是 最 大 读 取 的 input splits 数 目 。 相 关 实 现代 码 如 下 : 


InputSampler.Sampler<K,V> sampler = new \ 
InputSampler.RandomSampler<K,V> (pcnt, numSamples, maxSplits); 


Sampler 对 象 会 调用 writePartitionFile(0) 函 数 来 生成 PartitionFile 分 桶 文件 ， 然 后 通过 TotalOrderPartitioner 类 的 setPartitionFile() 函 数 来 设置 ， 实 现代 码 如 下 : 


TotalorderPartitioner.setPartitionFile (jobCconf，PpartitionFile) ， 


最 后 会 通过 DistributedCache 对 分 桶 文件 PartitionFile 进 行 分 发 。 


TotalOrderPartitioner 依 据 PartitionFile 对 key 的 划分 ， 针 对 不 同 Key 的 数据 类 型 提供 了 以 下 两 种 处 理 方法 : 
1) 对 于 非 BinaryComparable 类 型 的 key，TotalOrderPartitioner 采 用 二 分 查找 树 查找 当前 key 所 在 的 partition 分 桶 号 ， 也 就 是 需要 被 发 送 到 的 Reduce 号 。 
2) 对 于 BinaryComparable 类 型 的 key， 将 按照 字典 顺序 进行 排序 。TotalOrderPartitioner 会 采用 Tire tree 方 法 查找 当前 key 所 在 的 partition 分 桶 号 。 


使 用 TotalOrderPartitioner 进 行 全 局 排序 的 核心 代码 如 下 : 


// 指定 随机 采样 器 
InputSampler.Sampler<K,V> sampler = null 
sampler = new InputSampler.RandomSampler<K,V> (pcnt, numSamples, maxSplits); 


// 使 用 TotalOrderPartitioner 作 为 Partitioner 类 实现 
jobConf.setPartitionerClass (TotalOrderPartitioner.class); 


// 给 TotalOrderpartiti oner 设 置 partitionFile 文 件 
TotalOrderPartitioner.setPartitionFile (jobConf, partitionFile); 
InputSampler.<K, mten obCon., sampler); 
URI partitionUri = new URI (partitionFile.toString() 十 
"#" + " sortPartitioning") 
// 通过 DistributedCache 进 行 partitionFile 文 件 分 发 
DistributedCache.addCacherFile (partitionUri, jobConf); 
DistributedCache.createSymlink (jobConf); 


六 


12.6 多 路 输出 
路 输出 是 指 在 作业 输出 中 可 以 依据 用 户 自己 的 逻辑 将 不 同 的 结果 输出 到 不 同 的 文件 中 。 在 默认 情况 下 Hadoop 并 不 直接 支持 多 路 输出 ， 但 是 为 用 户 提供 了 MultipleOutputFormat 多 路 输出 类 接 


胃 多 路 
月 多 

， 这 个 类 是 一 个 抽象 类 ， 它 由 两 个 重要 的 子 类 实现 ,分别 为 MultipleTextOutputFormat (对 应 Text 文 本 格式 ) 和 MultipleSequenceFileOutputFormat (对 应 SequenceFile 二 进 制 格式 ) ， 用 户 要 实现 
多 路 输出 就 需要 继承 这 两 个 类 并 至 少 实现 generateFileNameForKeyValue(K key，V value，String name) 函 数 。 下 面 通过 一 个 实例 来 说 明 如 何 使 用 MultipleOutputFormat 基 类 来 实现 多 路 输出 功 


这 里 需要 实现 一 个 TStreamMultipleOutputFormat 文 本 格式 多 路 输出 ， 并 且 可 以 依据 用 户 输出 记录 的 后 缀 来 将 不 同 的 记录 输出 到 不 同 的 输出 文件 ， 有 具体 代 码 如 下 : 


public class TStreamMultipleOutputFormat extends MultipleTextOutputFormat<Text, Text> { 
protected String generateFileNameForKeyValue (Text key, Text value, String name) 


{ 


String strValue = Value.toString () ， 
int ValueLength = strValue.length () ， 
String outputName = name; 
1 
jf 
{ 


t index = strValue.lastIndexOf ("#"); 
(-1 != index && (index+2) == valueLength) 


String newValue = strValue.substring (0, index); 
value.set (newValue); 
char flag = strValue.charAt (index+1); 
outputName = name+"-"+flag; 


} 


return outputName; 


在 上 述 代 码 中 通过 符号 “#” 作 为 value 的 分 隔 标记 ， 然 后 依据 “# ”后 字符 的 不 同 将 记录 输出 到 不 同 的 文件 中 ， 同 时 作业 输出 文件 命名 时 后 缀 以 字符 “# ”后 的 字符 进行 区 分 。 完 成 上 述 的 多 路 输出 实现 
类 之 后 还 需要 将 其 编译 打包 才能 使 用 。 下 面 介绍 如 何 应 用 TstreamMultipleOutputFormat 来 实现 多 路 输出 功能 ， 假 定 输入 数据 中 有 两 种 数据 源 ， 第 一 种 数据 源 是 两 列 字 段 ; 第 二 种 数据 源 是 三 列 字段 。 需 
要 把 第 一 种 数据 源 输出 到 形式 为 part-xxxxx-A 的 文件 中 ， 第 二 种 数据 源 输 出 到 形式 为 part-xxxxx-B 的 文件 中 ， 这 里 Mapper 可 以 使 用 cat，reduce.py 实 现代 码 如 下 : 


#!/usr/bin/env Python 
import sys 
for line in sys.stdin : 

cols = line. Sttip () split("™\t") 


if len(cols) == 2 : 
sys.stdout.write('%s#A\n' $ (line.strip()) 
elif len(cols) == 3 : 
sys.stdout.write('%s#B\n' $ (line.strip()) 
else : 
continue 
使 用 Streaming 时 需要 通过 参数 outputformat 来 指定 输出 格式 为 TStreamMultipleOutputFormat 实 现 类 ，Streaming 提 交 命 令 如 下 : 


$HADOOP HOME/bin/hadoop streaming \ 

-input $input path \ 

-output $output path \ 

-outputformat TStreamMultipleOutputFormat \ 
—mapper cat \ 
-reducer "Python reduce.py" \ 
-numReduceTasks= 10 \ 

le ./reduce.py \ 

le ./TStreamMultipleOutputFormat.jar 


En 


Lbs 


最 终 作 业 输 出 会 在 输出 目录 $output_path 下 生成 两 种 输出 文件 : 第 一 种 数据 的 输出 会 全 部 在 part-x x x x x-A 形 式 的 文件 中 ; 第 二 种 数据 源 的 数据 会 全 部 在 part-x x x x x -B 形 式 的 文件 中 。 


如 果 用 户 使 用 Java API 进 行 开发 ， 直 接 使 用 JobConf 对 象 的 setOutputFormat() 遂 数 设置 输出 格式 为 多 路 输出 即 可 ， 实 现代 码 如 下 : 


Configuration conf = getConf () ， 
JobConf jobconf = new JobConf (conf, YourMultiFile.class); 


jobconf. setOutputFormat (TStreamMultipleOutputFormat.class); 


12.7 ”常见 问题 与 处 理 方法 
在 使 用 Hadoop 平 台 进行 应 用 开发 过 程 中 往往 会 遇 到 一 些 开发 或 运行 报错 等 相关 问题 ， 本 节 对 这 些 常见 的 问题 以 及 相应 的 处 理 方法 进行 总 结 ， 以 方便 开发 者 使 用 Hadoop。 


12.7.1 常见 的 开 友 问题 


1. 如 何 确定 Map 的 数量 ， 通 过 参数 mapred.map.task 指 定 的 Map 数 量 为 什么 和 实际 的 不 相符 ? 
Map 的 数量 是 由 数据 分 片 的 大 小 确定 的 ， 参 数 mapred.map.task 仅 仅 是 其 中 的 一 个 影响 因子 ， 具 体 计算 分 片 大 小 的 公式 如 下 : 


goalSize = totalSize / (numSplits == 01:mapred.map.tasks) 
minSize = max {mapred.min.split.size, minSplitSize} 
splitSize = max (minSize, min(goalSize, dfs.block.size)) 


totalSize 是 用 户 作 业 输 入 数据 的 总 大 小 ， 单 位 为 字 节 。 用 户 可 以 在 提交 作业 时 指定 参数 mapred.map.tasks 的 值 ， 在 没有 指定 的 情况 下 会 使 用 Hadoop 客 户 端 配置 文件 中 的 默认 值 。 然 后 就 是 确定 切 分 上 
下 限 值 了 ，minSize 是 切 分 大 小 的 下 限 值 ， 取 值 max(tmapred.min.split.size，minSplitSize}， 参 数 mapred.min.split.size 和 minSplitSize 默 认 值 都 为 1。 上 限 值 为 min(goalSize，dfs.block.size)， 参 数 
dfs.block.size 为 HDFs 的 块 大 小 。 最 终 切 分 大 小 取 上 限 值 和 下 限 值 的 最 大 值 作 为 最 终 切 分 大 小 ， 参 数 mapred.map.task 仅 仅 会 影响 上 限 值 。 


如 果 用 户 想 要 以 HDFS 的 分 块 大 小 dfs.block.size 为 切 分 值 ， 直 接 指定 mapred.map.tasks 参 数 为 0 即 可 。 其 他 情况 可 以 通过 指定 参数 mapred.min.split.size 的 值 来 影响 切 分 大 小 ， 从 而 设置 Map 的 数量 。 
2. 在 用 户 的 Mapper 或 Reducer 可 执行 脚本 中 如 何 调用 hadoop 命 令 ? 

用 户 可 以 通过 环境 变量 来 调用 计算 节点 的 Hadoop 命 令 。 例 如 通过 $HADOOP_HOME 环 境 变 量 调用 计算 节点 上 的 Hadoop 按 照 目录 ， 然 后 可 以 在 自己 的 脚本 中 对 HDFS 上 的 文件 进行 各 种 操作 。 

3. 在 作业 中 总 有 一 两 个 Reduce 任 务 卡 在 99% 不 能 完成 ， 问 题 何在 ? 


这 种 情况 最 可 能 的 原因 在 于 某 个 Reduce 要 处 理 的 数据 过 大 ， 例 如 正常 的 Reduce 仅 处 理 数 百 万 条 记录 ， 而 某 个 Reduce 却 要 处 理 数 十 亿 的 数据 ， 这 样 整个 作业 就 会 等 待 最 慢 的 Reduce 运 行 完 成 之 后 才能 
结束 。 这 种 现象 最 根本 的 原因 在 partition 分 桶 不 均 造 成 的 ， 用 户 可 以 通过 Web 监 控 页 面 查看 相应 Reduce 处 理 的 数据 记录 计数 器 来 进一步 确定 问题 。 


4. 在 Reduce 输 出 时 希望 整 行 字符 串 输出 ， 实 际 发 现 最 终 每 行 末尾 总 有 分 隔 符 “\t”， 如 何 去 掉 ? 


Streaming 处 理 数据 默认 的 <key，value> 分 陋 符 为 制 表 符 Tab 键 “\t”， 如 果 没 有 发 现 “\t”， 则 会 以 整 条 记录 为 key， 并 自动 加 上 键 值 对 分 隔 符 “\t”， 同 时 value 为 空 。 用 户 可 以 通过 自 定义 参数 来 
去 掉 未 尾 的 分 隔 符 “\t”， 参 数 指定 如 下 : 


-D mapred.textoutputformat.ignoreseparator="true" 


5. 在 使 用 Streaming 接 口 编程 时 如 何在 脚本 中 获取 当前 处 理 的 具体 文件 ? 
用 户 可 以 直接 在 脚本 中 通过 Streaming 的 环境 变量 $fmap_input file} 获 取 当 前 处 理 的 文件 ， 更 多 相关 的 Streaming 环 境 变量 ， 可 以 参考 Streaming 编 程 的 相关 内 容 。 
6. 如 何 控制 作业 可 以 最 大 并 发 的 Map 数 和 Reduce 数 ? 


可 以 通过 以 下 两 个 参数 对 最 大 并 发 执行 的 Map 数 和 Reduce 数 进行 控制 ， 代 码 如 下 : 


-D mapred.job.map.capacity=2000 \ 
-D obconf mapred.job.reduce.capacity=1000 


上 述 参 数控 制 当 前 作业 最 大 并 发 执行 的 Map 数 位 2000; 最 大 并 发 执行 的 Reduce 为 1000。 

7. 希 望 一 个 文件 对 应 一 个 MapTask 任 务 ， 怎 么 禁止 输入 数据 的 自动 切 分 ? 

这 里 可 以 详细 参考 问题 1 中 如 何 确 定 Map 的 数量 问题 ， 可 以 通过 参数 mapred.min.split.size 设 置 为 一 个 很 大 的 值 ， 例 如 设置 为 0xFFFFFFFF ， 这 样 Map 在 处 理 数据 时 不 会 对 输入 文件 进行 切 分 。 
8. 如 何 向 Hadoop 可 执行 脚本 中 传递 参数 ? 

在 streaming 编 程 时 可 以 直接 通过 Map 或 者 Reduce 脚 本 的 命令 行 参数 进行 传递 ， 对 于 较 大 参数 可 以 通过 文件 的 方式 ， 以 -file 参 数 进 行 分 发 来 传递 。 

9. 在 Hadoop 应 用 程序 开发 中 是 否 可 以 在 程序 中 写本 地 文件 ? 

在 Hadoop 程 序 中 用 户 可 以 像 单机 程序 一 样 来 写本 地 文件 ， 区 别 在 于 这 些 文件 都 会 被 当 作 临时 文件 ， 在 作业 完成 之 后 会 被 Hadoop 自 动 清理 。 

10. 在 客户 端 误 删除 了 HDFS 上 的 文件 ， 如 何 找 回 ? 


默认 Hadoop 并 没有 局 用 回收 站 功能 ， 用 户 可 以 在 Hadoop 客 户 端 配置 文件 中 开启 ， 代 码 如 下 : 


<property> 

<name>fs.trash.interval</name> 

<value>1440</value> 

<description>Number of minutes between trash checkpoints. 
If zero, the trash feature is disabled. 

</description> 
</property> 


参数 fs.trash.interval 值 的 单位 为 分 钟 ， 表 示 多 少 分 钟 之 后 会 被 真正 删除 。 通 过 上 述 设置 之 后 ， 如 果 用 户 误 删 除了 HDFS 上 的 数据 ， 可 以 在 删除 之 后 的 fs.trash.interval 分 钟 之 内 在 用 户 当前 的 .Trash 目 录 
找到 并 恢复 。 


12.7.2 运行 时 错误 问题 
1. 返 回 错 码 误 1 


在 运行 Streaming 作 业 时 往往 会 报 出 错误 码 为 1 的 运行 时 错误 ， 提 示 信 息 如 下 : 


Java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed 
with code 1 


这 种 情况 是 因为 用 户 的 Map 或 Reduce 可 执行 程序 返回 了 1，MapReduce 框 架 会 收集 应 用 程序 的 返回 值 ，subprocess failed with code 1 表示 程序 返回 的 就 是 1。Hadoop Streaming 框 架 在 默认 情况 下 
会 认为 用 户 的 可 执行 程序 Map 或 者 Reduce 返 回 非 O 时 是 异常 任务 ， 异 常任 务 将 被 再 次 执行 ， 最 终 不 能 成 功 便 导致 作业 失败 。 因 此 首先 需要 检查 是 否 是 开发 者 的 Map 或 者 Reduce 程 序 本 身 有 问题 而 导致 不 能 
正常 执行 返回 1; 然后 就 是 考虑 用 户 的 应 用 程序 是 否 在 正常 时 本 身 就 返回 了 1， 这 两 种 情况 的 确定 都 需要 结合 Task Logs 日 志和 开发 者 的 源 代 码 进 行 问题 定位 ， 如 果 是 用 户 程序 本 身 就 是 在 正常 的 情况 下 返回 
了 1， 则 可 以 通过 参数 控制 来 忽略 从 而 正常 执行 ， 参 数 设置 如 下 : 


-D stream.non.zero.exit.is.failure=false 


如 果 是 用 户 程 序 本 身 的 逻辑 错误 而 导致 失败 ， 就 需要 进行 源 代 码 BUG 修 正 。 
2. 返 回 错误 码 137 


错误 码 137 的 提示 如 下 : 


Java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): Subprocess failed 
with code 137 


这 种 错误 往往 是 因为 用 户 的 Map 或 Reduce 程 序 超出 Hadoop 平 台 内 存 限制 被 imit 杀 掉 ， 一 般 为 了 集群 的 稳定 性 和 安全 性 平台 会 默认 配置 内 存 有 一 个 限制 ， 例 如 限制 不 能 超过 800MB。 当 然 用 户 在 提交 
作业 时 可 以 通过 参数 设置 得 更 大 一 些 来 解决 这 样 的 问题 ， 参 数 指定 如 下 : 


-D stream.memory.1imit=1024 
在 上 述 命令 中 ,设置 Streaming 程 序 中 的 内 存 限 制 为 1024MB， 当 然 可 以 依据 用 户 的 内 存 需求 设置 得 更 大 一 些 ， 但 是 不 能 超过 单个 TaskTracker 任 务 的 最 大 内 存 限制 。 
3. 返 回 错误 码 141 


错误 提示 如 下 : 


Java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): Subprocess failed 
with code 141 


出 现 这 种 错误 还 是 因为 用 户 的 Map 或 者 Reduce 程 序 异常 退出 ， 而 Hadoop 平 台 继续 向 管道 推送 数据 ， 从 而 引起 管道 异常 出 错 并 最 终 导 至 作业 失败 。 这 种 问题 本 质 上 还 是 用 户 的 程序 逻辑 问题 ， 需 要 结合 
Task Logs 日 志和 程序 源 代码 来 分 析 定位 问题 。 


4. 返 回 错误 码 255 


错误 提示 如 下 : 
PipeMapRed.waitOoutputThreads (): subprocess failed with code 255 
At 


这 是 因为 用 户 的 Map 或 者 Reduce 程 序 异常 退出 返回 了 -1 而 导致 的 作业 失败 ， 也 需要 结合 Task Logs 日 志和 程序 源 代码 来 分 析 定 位 问题 。 


12.8 小 结 


本 章 主要 介绍 了 如 何 使 用 Hadoop 进 行 并 行 应 用 程序 的 开发 ， 首 先 对 Eclipse 继承 开发 环境 进行 了 讲述 ， 因 为 使 用 Eclipse 1DE 环 境 对 于 初学 者 而 言 可 以 快速 入 门 且 可 以 提高 开发 效率 ， 接 着 介绍 了 如 何 使 
用 MapReduce Java API 接 口 进行 编程 ， 然 后 对 Hadoop 编 程 开发 过 程 中 经 常 使 用 的 压缩 功能 、 排 序 应 用 、 多 路 输出 等 问题 进行 了 讲解 ， 最 后 对 开发 过 程 中 常见 的 开发 问题 、 作 业 运 行 时 报错 以 及 相应 的 解 
决 方法 进行 了 归纳 。 读 者 通过 对 本 章 的 学 习 可 以 快速 掌握 基本 的 Hadoop 应 用 程序 开发 方法 和 常用 功能 的 使 用 。 


